研究06/01 12:15

idSCD：透過語義相關描述符識別訓練數據集

研究論文提出，訓練數據集在模型學習過程中會留下特定的語義相關痕跡。論文引入語義相關描述符（SCDs），用於捕捉模型內部的語義相關結構，並使其可在不同數據集混合中進行比較。通過控制性的留一數據集診斷，SCDs 能夠恢復數據集特定的變化，並完美區分匹配與非匹配的數據集對。此外，論文提出實用的 SCD 成員分數，僅使用模型的 SCD 和目標數據集的獨立 SCD，即可測試目標數據集是否屬於模型的訓練混合，無需依賴留一數據集模型。在多個實驗設置中，包括自然語言推理、情感分類和醫學文本分類，基於此分類器的 SCD 方法表現優異，平均性能最高且標準差最低，超越黑盒基線 RMIA、Attack-P、LiRA 以及白盒 SIF 基線。這些結果證明，數據集成員資格可通過內部語義相關性進行追蹤，當數據集組暴露獨特的語義特性時，相對增益超過 60% 的 ROC-AUC。

來源

來源：網頁來源

網頁來源idSCD: Identifying Training Datasets through Semantic Correlation Descriptors