多模態代理的任務聚焦記憶化政策學習
論文探討多模態代理在長期記憶方面的挑戰,指出關鍵在於決定記憶內容。研究提出TaskMem,一個基於強化學習的記憶策略學習框架。該框架採用兩階段訓練:第一階段學習如何記憶,優化記憶質量並確保基本保真度;第二階段在部署後,透過適應器調整基於Qwen3-VL-30B-A3B的多模態大語言模型,使用環境任務定義獎勵模型,引導策略聚焦於任務相關內容。為評估方法,研究將VideoMME、EgoLife和EgoTempo重新制定為流式基準,模擬代理處理流式觀測和在線任務的真實場景。實驗結果顯示,TaskMem在這些基準上分別提高視覺問答準確度6.3%、7.0%和5.3%,證明其在提升代理記憶效能方面的有效性。論文強調,這種任務導向的記憶化政策能幫助代理更高效地累積世界知識並適應動態環境。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Task-Focused Memorization for Multimodal Agents