MemTrain:自監督上下文記憶訓練
研究論文提出 MemTrain,這是一個自監督訓練框架,專門用於增強大型語言模型(LLM)代理的上下文記憶能力。論文指出,現有的記憶代理方法通常依賴強化學習進行端到端訓練,但收集高品質標註數據成本高昂,且數據多樣性不足以涵蓋一般記憶行為。為此,MemTrain 在未標記的 Wikipedia 語料上引入兩個耦合的代理任務:第一個是端到端的掩碼重建目標,要求模型在多輪記憶更新後恢復被掩碼的實體,從而從最終結果角度鼓勵記憶維護;第二個是中間記憶回憶目標,要求模型使用中間記憶狀態重建被掩碼的歷史信息,以鼓勵在整個交互過程中忠實壓縮和記憶完整性。這兩個目標通過 GRPO 進行聯合優化。實驗結果顯示,在長文本問答和基於搜索的問答基準上,MemTrain 相較於直接的任務特定後訓練,性能提升最高可達 17.67 分,證實了其在記憶密集型推理任務中的有效性。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源MemTrain: Self-Supervised Context Memory Training