大型語言模型團隊在問答遊戲中的表現研究
研究論文提出,大型語言模型在需要間接推理、文化知識和協調假設測試的任務上仍有限制。論文探討團隊互動是否能改善 LLM 在問答遊戲「什麼?哪裡?何時?」(ChGK)中的表現,這是一款旨在獎勵集體推理的遊戲。研究引入三種團隊策略:投票、靜默團隊(隊長觀察最終答案)和健談團隊(隊長觀察答案和理由)。為了減少數據洩漏,研究在 2025 年發佈的 572 個 ChGK 問題數據集上評估這些策略,使用六個近期大型開源模型。結果顯示團隊策略優於單模型基線,準確率提升高達 20 個百分點,最佳團隊達到 44.23% 的準確率,並在有可用人類統計數據的問題上接近人類團隊表現。分析模型間多樣性發現,分歧強烈預測較低準確率,但解釋性溝通能顯著減輕性能下降。進一步檢查隊長行為,未發現自我偏好偏差;訪問同伴理由改善隊長判斷。總體而言,LLM 團隊主要作為答案選擇和錯誤過濾機制,而非新解決方案的生成器。研究強調互動的重要性,並建議自適應策略作為多代理系統的有前景方向。
來源
來源:網頁來源