論文提出 DASGuard,防禦本地 LLM 代理的多步木馬後門攻擊
研究論文提出,大型語言模型(LLM)代理正從對話機器人演變為實際工作空間中的操作工具,具備讀取檔案、呼叫工具等功能,但同時也為攻擊者暴露了新的攻擊面。攻擊者能在檔案或工具輸出中嵌入提示注入指令,代理讀取後可能儲存並在後續執行,這種多步驟攻擊方式單步看似無害,卻能將不受信任的文字轉化為持續的控制內容。然而,現有防禦機制往往單獨檢查每個步驟,雖能阻擋明顯的有害行為,卻難以偵測植入後門的早期寫入操作。為揭示此威脅,論文引入了 ClawTrojan 基準測試,在模擬工作空間中進行測試,達到了 95.5% 的攻擊成功率。為應對此威脅,研究團隊提出 DASGuard 防禦方案,其能掃描敏感本地檔案中類似控制指令的文字,追溯其來源,並移除非可信來源的控制內容。研究結果顯示,DASGuard 結合運行時攻擊阻斷與工作空間清理提交,實現了強大的動態防禦。
來源
來源:Hugging Face / 論文來源