ClawHub 安全訊號:當 VirusTotal、靜態分析和 SkillSpector 意見不一時
研究論文提出,Agent 技能透過可重複使用的指令、工具、腳本等擴展 AI 代理,建立了一個獨立於模型安全和傳統惡意軟體偵測的安全邊界。論文中,作者介紹了 ClawHub Security Signals,這是一個包含 67,453 個最新公開 OpenClaw 技能版本的經過消毒的數據集。每個數據點都配對了經過編輯的 SKILL.md 內容和消毒後的捆綁檔案,並附有來自三個掃描器家族的最終 ClawScan 註冊表判定和證據:VirusTotal、靜態啟發式分析和 NVIDIA SkillSpector。研究並非估計惡意技能的流行程度,而是探討掃描器之間的分歧。結果顯示,三個掃描器很少標記相同的技能:任何兩個掃描器的正面標記重疊僅佔其組合正面標記的最多 10.4%,只有 0.69% 的技能被所有三個掃描器標記,而 81.9% 的被標記技能僅由單一掃描器識別。這種分歧由攻擊面結構化。SkillSpector 主要產生語義代理風險建議而非惡意軟體信譽信號,在 25,504 個可疑行中的 19,209 個(75.3%)為正面,但在 206 個惡意行中僅 14 個(6.8%)。惡意判定區域則顯示相反的模式:206 個惡意行中的 150 個(72.8%)為 VirusTotal 陽性,這與捆綁程式碼惡意軟體的證據一致。這些結果表明,代理技能安全需要分層治理,而非單一掃描器的允許/封鎖決策。論文將語料庫作為經過消毒的銀標準數據集發布,標籤是註冊表的自動判定,而非人工標註的 ground truth,而此次發布代表了一個早期的版本化快照,旨在支持社區,同時開發人工標註的子集。論文鼓勵進一步研究,包括為技能安全分流量身定制的模型。
來源:Hugging Face / 論文來源