研究06/01 12:15

MAAT框架與5WBENCH基準：解決機器遺忘評估中的因果知識偏差問題

研究論文提出，現行用於評估機器遺忘成效的基準存在結構性偏差。論文指出，在CounterFact、ZSRE、TOFU等主流基準中，旨在探測因果與關聯知識的「Why類型」問題佔比極低，從0.06%到1.3%不等。這種近乎零的代表意味著，一些在處理因果知識上失效的方法，仍可能在整體評分上獲得高分，而這種缺陷在不平衡的評估中無法被偵測。為解決此問題，論文提出了一個名為5WBENCH的平衡基準，包含5000個樣本，均勻涵蓋「Who、What、When、Where、Why」五類問題。論文探討發現，現有方法無法在Why類問題上同時達到高效遺忘與高保留率：激進的遺忘策略會損害應保留的知識，而保守的方法則無法遺忘因果事實。此困難源於Why類問題常涉及多步推理鏈（佔44%，遠高於其他類別的2%以下）以及答案跨越較長token導致的梯度稀釋。針對此挑戰，論文提出了MAAT框架，這是一個作用於LoRA適配器權重的三階段框架，結合了梯度投影上升、SVD秩維度剪枝、任務向量否定及混合KL隱藏狀態保留修復技術。論文宣稱，MAAT是首個能在Why類因果知識上同時實現高效遺忘與高保留率的方法，在遺忘-保留帕累托前沿上達到了新的操作點。

來源

來源：網頁來源

網頁來源MAAT: Multi-phase Adapter-Aware Targeted Unlearning