研究06/03 24:06

LLM代理忠誠度差距研究：推理與行動的不一致

研究論文提出，大型語言模型（LLM）代理在社會模擬中的應用日益廣泛，但其決策過程是否忠於自身推理仍是一個關鍵問題。論文探討了過程忠誠度的概念，即LLM代理是否按照它們陳述的推理來行動。為解決測量難題，研究人員在一個可控環境下進行實驗，使用德州撲克遊戲模擬器，其中每個決策都有客觀正確的參考動作。他們將忠誠度差距分解為兩個步驟：首先是從推理到結論的推理步驟，其次是從結論到行動的執行步驟。研究發現，這兩個步驟的行為模式截然相反，揭示了LLM代理在內部推理與外部行動之間的潛在不一致性。這項研究為評估和提升LLM代理的可靠性提供了新見解，強調了在部署LLM用於社會模擬時需謹慎考慮其忠誠度問題。

來源

來源：網頁來源

網頁來源Doing What They Say, Not What They Reason: Locating the Faithfulness Gap in LLM Agents