研究06/03 24:15

代理工具調用與強化學習訓練的有效性及效率研究

這篇發表於 arXiv 的研究論文提出，工具調用是現代大型語言模型代理的核心組件，賦予其超越參數知識的技能。論文從兩個互補角度進行研究：有效性，即如何測量此能力；以及效率，即如何學習此能力。在有效性方面，研究系統分析工具調用的評估管道，顯示結果對看似細微、經常未記錄的實現選擇高度敏感，例如隨機種子、系統提示、多輪模板構建以及先前交互或推理歷史的傳遞方式。這些選擇可能導致報告性能有顯著差異，尤其在多輪設置中，若缺乏嚴格標準化，排行榜排名便不可靠。在效率方面，論文檢查用於工具調用的標準強化學習，識別出兩個計算浪費來源：一是在滾動過程中，許多提示產生無學習信號；二是在策略更新時，優化帶來高計算成本。基於這些發現，論文引入兩種技術以加速基於強化學習的工具調用訓練，實現顯著的牆鐘時間加速而不降低性能。

來源

來源：網頁來源

網頁來源On Effectiveness and Efficiency of Agentic Tool-calling and RL Training