以記憶引導資料集去偏誤緩解虛假相關
研究論文提出,現實世界的資料集常包含與目標標籤無因果關係的虛假相關。當這些相關主導大多數訓練樣本時,模型傾向於依賴它們,導致對未表現相同虛假模式的少數樣本進行錯誤分類。傳統方法可能需要存取群組標籤,但這通常是未知的。此外,論文展示,廣泛使用的樣本評分函數在不變子集或核心集選擇文獻中,很大程度上依賴虛假特徵,因此無法準確捕捉核心因果特徵的重要性或難度。為此,論文開發一個兩階段樣本評分函數,以分離核心和虛假特徵的學習動態,並分別評估其難度。基於此指標,引入一個新演算法來查找和優先處理具有和不具有虛假相關的有資訊性樣本。廣泛實驗顯示,使用所選樣本訓練的標準ERM模型,僅需原始訓練資料的10%,即可達到優於最新去偏誤技術的性能。
來源
來源:網頁來源