研究06/01 12:07

COMPASS：安全搜尋代理的認知 MCTS 導向過程對齊框架

研究論文提出 COMPASS 框架，旨在為 LLM 驅動的搜尋代理提供穩健的安全對齊。論文指出，LLM 代理的多步推理和工具使用能力可能導致安全降解，因為有害意圖可能被分解為看似無害的子查詢，進而引發不安全結果。現有對齊方法難以捕捉稀疏的安全信號，且無法監督多步交互中的多樣違規行為。為解決這些挑戰，COMPASS 整合認知樹探索（CTE）來高效合成隱蔽攻擊軌跡，以及內省步驟對齊（ISA）來隔離風險中間動作進行細粒度過程監督。實證結果顯示，COMPASS 在安全與實用性之間取得良好平衡，且所需訓練數據顯著減少，為 AI 代理安全研究提供新方向。

來源

來源：網頁來源

網頁來源COMPASS: Cognitive MCTS-Guided Process Alignment for Safe Search Agents