研究06/01 12:10

評估使用模擬工具調用隔離不受信任的提示輸入

研究論文探討大型語言模型處理不受信任輸入時的安全挑戰。當前，模型經常需要執行如判斷其他模型回答或運行垃圾郵件分類器等任務，這些輸入常直接格式化為提示模板，容易受到操縱。OpenAI 等主要供應商的 LLM 規範透過指令層級來區分信任度，從系統消息（最受信任）到工具結果（最不受信任）。論文提出一個假設：將不受信任內容包裹在模擬工具調用中作為隔離措施。為驗證此假設，研究進行了自動化紅隊測試，在七個模型和三個 LLM-as-a-Judge 任務上搜索靜態攻擊字串。結果與假設相反，工具包裹並未廣泛提升穩健性。在二元評估任務（如 GSM8K 評分）中，它通常增加攻擊成功率，似乎反轉了指令層級。在標量和成對任務中，效果較小且因模型而異，沒有測試模型能可靠受益，部分還顯示反轉。研究建議評估部署系統的這一限制，並長期追求更強的指令層級訓練或新的不受信任輸入原語。

來源

來源：網頁來源

網頁來源Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs