在多模態影片理解中基準測試視覺狀態追蹤
研究論文提出,理解影片不僅僅是識別孤立時刻,人類能夠持續追蹤實體、狀態和事件。這種視覺狀態追蹤能力是影片理解的基礎,但在多模態大型語言模型(MLLMs)的評估中仍未充分探索。為此,論文探討並引入了視覺狀態追蹤基準(VSTAT),這是一個基於影片的基準,旨在診斷MLLMs的視覺狀態追蹤能力。VSTAT包含來自合成和真實世界影片的834個片段,配對1500個問題,這些問題無法從任何單一幀或短片段中回答,需要跨整個影片流的持續感知和整合。論文發現,儘管在現有影片基準上表現強勁,最先進的MLLMs在VSTAT上的表現遠低於人類,僅略高於答案先驗基線。通過分析MLLMs的思考軌跡與底層影片流,研究發現模型在文本中推理和追蹤正確,但在視覺感知需要追蹤的事件時失敗。初步評估顯示,最近的代理方法,包括基於MLLM的影片代理和編碼代理,未能輕易解決這些失敗,在VSTAT上仍然不足。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Benchmarking Visual State Tracking in Multimodal Video Understanding