多智能體辯論數據清理:效益與風險探討
這篇arXiv研究論文探討多智能體辯論在數據清理任務中的效果。論文進行了跨三個基準、四個模型家族的實驗,分析了超過6000個任務條件對。結果顯示,辯論在生成方面會降低性能,幅度從-1.6到-15.5百分點,原因在於批評導致的混亂(CIC),即虛構的批評反饋被生成器無條件接受。然而,在錯誤檢測方面,辯論顯著提升了效能,F1分數增加27.4百分點。論文推導出一個辯論效益條件:當拯救錯誤輸出的概率超過摧毀正確輸出的概率時,辯論才有幫助。實驗進一步證明,對抗性分離至關重要;使用相同工具的自我驗證無效,而一個獨立的批評者配合代碼執行基礎和證據門控生成,首次在生成任務上顯著超越單智能體(+5.3百分點)。該條件正確預測了所有九種任務類型,並在七個領域的19個已發表比較中零誤差泛化。這項研究為設計更有效的AI數據清理系統提供了重要見解。
來源
來源:網頁來源