返回事件流

BAGEN:大型語言模型代理是否預算感知?

研究論文提出預算感知代理(BAGEN)的概念,主張大型語言模型代理應將預算視為主動控制信號,而非被動成本指標。論文首先系統性地定義預算估計為內部預算(來自代理計算)和外部預算(來自代理動作),並將預算感知形式化為漸進間隔估計:在計劃的每一步,代理應預測剩餘預算的上下界,並在完成可能性低時發出警報。透過滾動重播協議評分,研究在四個環境和五個前沿代理中發現一致的失敗模式。首先,強代理不一定具有強預算感知,相關性僅為0.35。其次,前沿模型一致過於樂觀,在任務不太可能成功時繼續花費資源,而非提前警告使用者。第三,預算感知信號是可行且可訓練的;早期停止在失敗軌跡上節省了28-64%的代幣,而監督微調結合強化學習增強了早期停止和警報行為。然而,精確的間隔校準仍然具有挑戰性,在SFT+RL後,間隔覆蓋率上限為47%。相關項目頁面已公開。

來源

來源:網頁來源