研究06/03 24:18

BAGEN：大型語言模型代理是否預算感知？

研究論文提出預算感知代理（BAGEN）的概念，主張大型語言模型代理應將預算視為主動控制信號，而非被動成本指標。論文首先系統性地定義預算估計為內部預算（來自代理計算）和外部預算（來自代理動作），並將預算感知形式化為漸進間隔估計：在計劃的每一步，代理應預測剩餘預算的上下界，並在完成可能性低時發出警報。透過滾動重播協議評分，研究在四個環境和五個前沿代理中發現一致的失敗模式。首先，強代理不一定具有強預算感知，相關性僅為0.35。其次，前沿模型一致過於樂觀，在任務不太可能成功時繼續花費資源，而非提前警告使用者。第三，預算感知信號是可行且可訓練的；早期停止在失敗軌跡上節省了28-64%的代幣，而監督微調結合強化學習增強了早期停止和警報行為。然而，精確的間隔校準仍然具有挑戰性，在SFT+RL後，間隔覆蓋率上限為47%。相關項目頁面已公開。

來源

來源：網頁來源

網頁來源BAGEN: Are LLM Agents Budget-Aware?