MAAT框架與5WBENCH基準:解決機器遺忘評估中的因果知識偏差問題
研究論文提出,現行用於評估機器遺忘成效的基準存在結構性偏差。論文指出,在CounterFact、ZSRE、TOFU等主流基準中,旨在探測因果與關聯知識的「Why類型」問題佔比極低,從0.06%到1.3%不等。這種近乎零的代表意味著,一些在處理因果知識上失效的方法,仍可能在整體評分上獲得高分,而這種缺陷在不平衡的評估中無法被偵測。為解決此問題,論文提出了一個名為5WBENCH的平衡基準,包含5000個樣本,均勻涵蓋「Who、What、When、Where、Why」五類問題。論文探討發現,現有方法無法在Why類問題上同時達到高效遺忘與高保留率:激進的遺忘策略會損害應保留的知識,而保守的方法則無法遺忘因果事實。此困難源於Why類問題常涉及多步推理鏈(佔44%,遠高於其他類別的2%以下)以及答案跨越較長token導致的梯度稀釋。針對此挑戰,論文提出了MAAT框架,這是一個作用於LoRA適配器權重的三階段框架,結合了梯度投影上升、SVD秩維度剪枝、任務向量否定及混合KL隱藏狀態保留修復技術。論文宣稱,MAAT是首個能在Why類因果知識上同時實現高效遺忘與高保留率的方法,在遺忘-保留帕累托前沿上達到了新的操作點。
來源
來源:網頁來源