研究06/01 12:09

大型語言模型團隊在問答遊戲中的表現研究

研究論文提出，大型語言模型在需要間接推理、文化知識和協調假設測試的任務上仍有限制。論文探討團隊互動是否能改善 LLM 在問答遊戲「什麼？哪裡？何時？」（ChGK）中的表現，這是一款旨在獎勵集體推理的遊戲。研究引入三種團隊策略：投票、靜默團隊（隊長觀察最終答案）和健談團隊（隊長觀察答案和理由）。為了減少數據洩漏，研究在 2025 年發佈的 572 個 ChGK 問題數據集上評估這些策略，使用六個近期大型開源模型。結果顯示團隊策略優於單模型基線，準確率提升高達 20 個百分點，最佳團隊達到 44.23% 的準確率，並在有可用人類統計數據的問題上接近人類團隊表現。分析模型間多樣性發現，分歧強烈預測較低準確率，但解釋性溝通能顯著減輕性能下降。進一步檢查隊長行為，未發現自我偏好偏差；訪問同伴理由改善隊長判斷。總體而言，LLM 團隊主要作為答案選擇和錯誤過濾機制，而非新解決方案的生成器。研究強調互動的重要性，並建議自適應策略作為多代理系統的有前景方向。

來源

來源：網頁來源

網頁來源Can LLM Teams Play What? Where? When?