研究06/04 24:17

在多模態影片理解中基準測試視覺狀態追蹤

研究論文提出，理解影片不僅僅是識別孤立時刻，人類能夠持續追蹤實體、狀態和事件。這種視覺狀態追蹤能力是影片理解的基礎，但在多模態大型語言模型（MLLMs）的評估中仍未充分探索。為此，論文探討並引入了視覺狀態追蹤基準（VSTAT），這是一個基於影片的基準，旨在診斷MLLMs的視覺狀態追蹤能力。VSTAT包含來自合成和真實世界影片的834個片段，配對1500個問題，這些問題無法從任何單一幀或短片段中回答，需要跨整個影片流的持續感知和整合。論文發現，儘管在現有影片基準上表現強勁，最先進的MLLMs在VSTAT上的表現遠低於人類，僅略高於答案先驗基線。通過分析MLLMs的思考軌跡與底層影片流，研究發現模型在文本中推理和追蹤正確，但在視覺感知需要追蹤的事件時失敗。初步評估顯示，最近的代理方法，包括基於MLLM的影片代理和編碼代理，未能輕易解決這些失敗，在VSTAT上仍然不足。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Benchmarking Visual State Tracking in Multimodal Video Understanding