研究06/05 24:06

MemTrain：自監督上下文記憶訓練

研究論文提出 MemTrain，這是一個自監督訓練框架，專門用於增強大型語言模型（LLM）代理的上下文記憶能力。論文指出，現有的記憶代理方法通常依賴強化學習進行端到端訓練，但收集高品質標註數據成本高昂，且數據多樣性不足以涵蓋一般記憶行為。為此，MemTrain 在未標記的 Wikipedia 語料上引入兩個耦合的代理任務：第一個是端到端的掩碼重建目標，要求模型在多輪記憶更新後恢復被掩碼的實體，從而從最終結果角度鼓勵記憶維護；第二個是中間記憶回憶目標，要求模型使用中間記憶狀態重建被掩碼的歷史信息，以鼓勵在整個交互過程中忠實壓縮和記憶完整性。這兩個目標通過 GRPO 進行聯合優化。實驗結果顯示，在長文本問答和基於搜索的問答基準上，MemTrain 相較於直接的任務特定後訓練，性能提升最高可達 17.67 分，證實了其在記憶密集型推理任務中的有效性。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源MemTrain: Self-Supervised Context Memory Training