代理工具調用與強化學習訓練的有效性及效率研究
這篇發表於 arXiv 的研究論文提出,工具調用是現代大型語言模型代理的核心組件,賦予其超越參數知識的技能。論文從兩個互補角度進行研究:有效性,即如何測量此能力;以及效率,即如何學習此能力。在有效性方面,研究系統分析工具調用的評估管道,顯示結果對看似細微、經常未記錄的實現選擇高度敏感,例如隨機種子、系統提示、多輪模板構建以及先前交互或推理歷史的傳遞方式。這些選擇可能導致報告性能有顯著差異,尤其在多輪設置中,若缺乏嚴格標準化,排行榜排名便不可靠。在效率方面,論文檢查用於工具調用的標準強化學習,識別出兩個計算浪費來源:一是在滾動過程中,許多提示產生無學習信號;二是在策略更新時,優化帶來高計算成本。基於這些發現,論文引入兩種技術以加速基於強化學習的工具調用訓練,實現顯著的牆鐘時間加速而不降低性能。
來源
來源:網頁來源