返回事件流

子圖解釋是否可被武器化以竊取圖神經網路?

研究論文探討了圖神經網路在可解釋人工智慧應用中的安全風險。論文指出,圖機器學習即服務平台為滿足監管透明度要求而實施可解釋性介面,但這些介面反而為模型提取攻擊創造了漏洞。作者提出了一種新的攻擊方法,專門設計用於在嚴格黑盒約束下進行圖分類,攻擊者只能觀察離散類別標籤和二元解釋遮罩,無法獲取概率分數、梯度或置信度值。方法包含兩個關鍵技術:首先,使用模型解釋輸出來指導蒙地卡羅邊緣敏感度估計,以準確趨向決策邊界,並通過霍夫丁集中不等式保證估計精度;其次,利用解釋子圖來高效縮小邊界搜索空間,提高攻擊效率。在多個基準圖數據集上進行的廣泛實驗表明,該方法在模型提取任務上顯著優於現有基準方法。論文最後強調,這些發現不僅揭示了可解釋性介面的潛在安全隱患,還為防禦機制設計和可解釋人工智慧的政策制定提供了重要參考。實現代碼已公開在 GitHub 倉庫中,供研究社群驗證和擴展。

來源

來源:網頁來源