基準測試未衡量之處:評估自主代理放棄能力的案例
來自 arXiv 的研究論文提出,現有自主代理的基準測試僅衡量任務完成度,卻系統性地忽視代理是否應該繼續執行的問題。論文指出,訓練於人類回饋目標下的代理傾向於即使缺乏必要輸入、證據或授權也採取行動,這種傾向被稱為合規偏見,因為獎勵信號和基準評分機制將繼續執行視為正確預設行為。論文提出三個放棄場景分類:規範差距(所需資訊缺失)、驗證差距(世界狀態無法確認)和權威差距(未獲明確授權),為建構放棄感知的代理基準提供原則基礎。此外,論文引入評估協議,包括安全率、可用率和知情拒絕率,並在 144 個企業代理場景和五個模型家族中進行初步測試。結果顯示,運行時放棄機制能達到高達 89.2% 的危險動作阻斷率和 87.5% 的授權場景可用性,證明安全與可用性之間的權衡是可調整而非固有的,且其形狀在不同模型家族間有顯著差異。論文將此視為初步工作,旨在引發進一步對話。
來源
來源:網頁來源