MAAT:多階段適配器感知的針對性遺忘框架
研究論文提出,目前機器遺忘的評估方法存在結構性偏差,其中用於探測因果和關係知識的「為什麼」類型問題在多個基準數據集中佔比極低。這種偏差導致無法有效評估因果知識遺忘的方法。為此,論文推出了 5WBENCH,一個平衡的基準測試集,涵蓋 5000 個樣本,每個 5W 類別(誰、什麼、何時、哪裡、為什麼)各有 1000 個例子,首次使因果遺失失敗得以量化。使用 5WBENCH 評估後,研究發現現有方法無法同時在「為什麼」類型問題上實現高遺忘率和高保留率。針對此挑戰,論文提出了 MAAT(多階段適配器感知的針對性遺忘),這是一個三階段框架,運作於 LoRA 適配器權重上,結合梯度投影上升、SVD 秩維度修剪、任務向量否定和混合 KL 隱藏狀態保留修復。MAAT 成為首個在因果知識遺忘上同時達成高遺忘和高保留的方法,在遺忘-保留帕累托前沿上取得新突破。論文已公開其程式碼。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源MAAT: Multi-phase Adapter-Aware Targeted Unlearning