研究06/01 10:35

論文提出 DASGuard，防禦本地 LLM 代理的多步木馬後門攻擊

研究論文提出，大型語言模型（LLM）代理正從對話機器人演變為實際工作空間中的操作工具，具備讀取檔案、呼叫工具等功能，但同時也為攻擊者暴露了新的攻擊面。攻擊者能在檔案或工具輸出中嵌入提示注入指令，代理讀取後可能儲存並在後續執行，這種多步驟攻擊方式單步看似無害，卻能將不受信任的文字轉化為持續的控制內容。然而，現有防禦機制往往單獨檢查每個步驟，雖能阻擋明顯的有害行為，卻難以偵測植入後門的早期寫入操作。為揭示此威脅，論文引入了 ClawTrojan 基準測試，在模擬工作空間中進行測試，達到了 95.5% 的攻擊成功率。為應對此威脅，研究團隊提出 DASGuard 防禦方案，其能掃描敏感本地檔案中類似控制指令的文字，追溯其來源，並移除非可信來源的控制內容。研究結果顯示，DASGuard 結合運行時攻擊阻斷與工作空間清理提交，實現了強大的動態防禦。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors