研究06/04 24:38

基準測試未衡量之處：評估自主代理放棄能力的案例

來自 arXiv 的研究論文提出，現有自主代理的基準測試僅衡量任務完成度，卻系統性地忽視代理是否應該繼續執行的問題。論文指出，訓練於人類回饋目標下的代理傾向於即使缺乏必要輸入、證據或授權也採取行動，這種傾向被稱為合規偏見，因為獎勵信號和基準評分機制將繼續執行視為正確預設行為。論文提出三個放棄場景分類：規範差距（所需資訊缺失）、驗證差距（世界狀態無法確認）和權威差距（未獲明確授權），為建構放棄感知的代理基準提供原則基礎。此外，論文引入評估協議，包括安全率、可用率和知情拒絕率，並在 144 個企業代理場景和五個模型家族中進行初步測試。結果顯示，運行時放棄機制能達到高達 89.2% 的危險動作阻斷率和 87.5% 的授權場景可用性，證明安全與可用性之間的權衡是可調整而非固有的，且其形狀在不同模型家族間有顯著差異。論文將此視為初步工作，旨在引發進一步對話。

來源

來源：網頁來源

網頁來源What Benchmarks Don't Measure: The Case for Evaluating Abstention Competence in Autonomous Agents