研究06/04 24:38

多智能體辯論數據清理：效益與風險探討

這篇arXiv研究論文探討多智能體辯論在數據清理任務中的效果。論文進行了跨三個基準、四個模型家族的實驗，分析了超過6000個任務條件對。結果顯示，辯論在生成方面會降低性能，幅度從-1.6到-15.5百分點，原因在於批評導致的混亂（CIC），即虛構的批評反饋被生成器無條件接受。然而，在錯誤檢測方面，辯論顯著提升了效能，F1分數增加27.4百分點。論文推導出一個辯論效益條件：當拯救錯誤輸出的概率超過摧毀正確輸出的概率時，辯論才有幫助。實驗進一步證明，對抗性分離至關重要；使用相同工具的自我驗證無效，而一個獨立的批評者配合代碼執行基礎和證據門控生成，首次在生成任務上顯著超越單智能體（+5.3百分點）。該條件正確預測了所有九種任務類型，並在七個領域的19個已發表比較中零誤差泛化。這項研究為設計更有效的AI數據清理系統提供了重要見解。

來源

來源：網頁來源

網頁來源When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning