研究06/05 24:07

BraveGuard：從開放世界威脅到更安全的電腦使用代理

研究論文提出 BraveGuard，一個自適應防禦框架，旨在提升電腦使用代理的安全性。電腦使用代理讓語言模型能與檔案、終端、瀏覽器等持續互動，但這也產生了難以偵測的安全風險，因為傷害往往在多步驟執行軌跡中出現，個別動作看似無害。BraveGuard 透過挖掘最新研究來源以識別新興風險和攻擊模式，將其實例化為可執行的電腦使用任務，收集代理軌跡，並從中導出軌跡層級的監督數據來訓練守衛模型。隨著新威脅和驗證失敗出現，此流程可重複進行，形成一個自適應防禦循環，而非靜態的基準導向訓練過程。研究者實例化 BraveGuard 來訓練多個守衛骨幹，包括 Qwen3-Guard 和 Llama-Guard 變體，並在軌跡層級的代理安全基準上評估。結果顯示，BraveGuard 在電腦使用軌跡的安全偵測上一致改善，在 AgentHazard 基準上，平均守衛模型設定下的偵測準確率從 38.79% 大幅提升至 82.38%。這些成果表明，基於開放世界威脅發現和真實代理執行的守衛監督，能夠超越固定分類和合成提示層級數據，改善安全監控。BraveGuard 為面臨演變中真實世界風險的電腦使用代理提供了一條可擴展的自適應防禦路徑。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源BraveGuard: From Open-World Threats to Safer Computer-Use Agents