idSCD:透過語義相關描述符識別訓練數據集
研究論文提出,訓練數據集在模型學習過程中會留下特定的語義相關痕跡。論文引入語義相關描述符(SCDs),用於捕捉模型內部的語義相關結構,並使其可在不同數據集混合中進行比較。通過控制性的留一數據集診斷,SCDs 能夠恢復數據集特定的變化,並完美區分匹配與非匹配的數據集對。此外,論文提出實用的 SCD 成員分數,僅使用模型的 SCD 和目標數據集的獨立 SCD,即可測試目標數據集是否屬於模型的訓練混合,無需依賴留一數據集模型。在多個實驗設置中,包括自然語言推理、情感分類和醫學文本分類,基於此分類器的 SCD 方法表現優異,平均性能最高且標準差最低,超越黑盒基線 RMIA、Attack-P、LiRA 以及白盒 SIF 基線。這些結果證明,數據集成員資格可通過內部語義相關性進行追蹤,當數據集組暴露獨特的語義特性時,相對增益超過 60% 的 ROC-AUC。
來源
來源:網頁來源