M^3Eval:透過認知基礎影片任務評估多模態記憶
研究論文提出 M^3Eval,這是首個全面評估多模態模型記憶能力的框架與基準。論文指出,現有影片數據集和基準主要關注感知與推理,而忽略了記憶的系統性評估,例如模型保留什麼、信息如何忠實保存,以及在干擾下記憶的穩健性。為填補這一空白,M^3Eval 基於認知心理學設計,透過精心構建的任務來隔離記憶的關鍵方面,包括短期、長期和符號記憶等維度。研究團隊利用 M^3Eval 對代表性多模態模型進行了廣泛實驗,發現模型在處理平行影片流時難以維持解耦表示,干擾模式與人類記憶存在顯著差異,空間域的記憶來源比時間域更可靠,且符號記憶能力有限。這些發現強調了記憶作為多模態模型中一個基本但探索不足的能力,並為設計更有效的記憶機制提供了見解。此外,論文提供了代碼和數據集,作為未來研究的寶貴資源,推動記憶能力在多模態模型中的進一步發展。
來源:Hugging Face / 論文來源