研究06/01 12:15

子圖解釋是否可被武器化以竊取圖神經網路？

研究論文探討了圖神經網路在可解釋人工智慧應用中的安全風險。論文指出，圖機器學習即服務平台為滿足監管透明度要求而實施可解釋性介面，但這些介面反而為模型提取攻擊創造了漏洞。作者提出了一種新的攻擊方法，專門設計用於在嚴格黑盒約束下進行圖分類，攻擊者只能觀察離散類別標籤和二元解釋遮罩，無法獲取概率分數、梯度或置信度值。方法包含兩個關鍵技術：首先，使用模型解釋輸出來指導蒙地卡羅邊緣敏感度估計，以準確趨向決策邊界，並通過霍夫丁集中不等式保證估計精度；其次，利用解釋子圖來高效縮小邊界搜索空間，提高攻擊效率。在多個基準圖數據集上進行的廣泛實驗表明，該方法在模型提取任務上顯著優於現有基準方法。論文最後強調，這些發現不僅揭示了可解釋性介面的潛在安全隱患，還為防禦機制設計和可解釋人工智慧的政策制定提供了重要參考。實現代碼已公開在 GitHub 倉庫中，供研究社群驗證和擴展。

來源

來源：網頁來源

網頁來源Can Subgraph Explanations Be Weaponized to Steal Graph Neural Networks?