返回事件流

STRIDE:透過稀疏回復進行訓練數據歸因

HuggingFace 上出現的研究論文提出 STRIDE 框架,用於訓練數據歸因(TDA)。傳統的 TDA 方法依賴因果干預,觀察數據增減時模型的變化,但在大型語言模型(LLMs)中,反覆重新訓練計算成本高昂。現有方法通常在參數空間中使用梯度進行近似,但追蹤數十億參數的梯度不僅昂貴,且依賴局部近似。STRIDE 轉向在激活空間中建模訓練數據的功能效應,將 TDA 表述為稀疏回復問題,類似壓縮感知。框架學習輕量級的「轉向運算符」,模擬由數據子集訓練引起的行為轉變。通過測量這些運算符如何擾動測試預測,STRIDE 透過稀疏線性分解恢復個別訓練樣本的影響。實驗表明,STRIDE 在 LLM 預訓練歸因中達到最先進水平,並比先前方法快 13 倍。此外,論文驗證了其在數據選擇、數據污染和定性分析等下游應用中的實用價值。

來源:Hugging Face / 論文來源