返回事件流

COMPASS:安全搜尋代理的認知 MCTS 導向過程對齊框架

研究論文提出 COMPASS 框架,旨在為 LLM 驅動的搜尋代理提供穩健的安全對齊。論文指出,LLM 代理的多步推理和工具使用能力可能導致安全降解,因為有害意圖可能被分解為看似無害的子查詢,進而引發不安全結果。現有對齊方法難以捕捉稀疏的安全信號,且無法監督多步交互中的多樣違規行為。為解決這些挑戰,COMPASS 整合認知樹探索(CTE)來高效合成隱蔽攻擊軌跡,以及內省步驟對齊(ISA)來隔離風險中間動作進行細粒度過程監督。實證結果顯示,COMPASS 在安全與實用性之間取得良好平衡,且所需訓練數據顯著減少,為 AI 代理安全研究提供新方向。

來源

來源:網頁來源