SVI-Bench:用於戰略視頻智慧的動態微世界
研究論文提出,SVI-Bench 是一個大規模基準,旨在評估戰略視頻智慧(SVI),涵蓋從視覺感知到因果推理和戰略規劃的進階能力。該基準利用團隊運動(如籃球、足球和曲棍球)作為動態微世界,結合同時真實多智能體系統的複雜性和明確規則的可驗證性。數據規模龐大,包括約 35,000 小時的廣播視頻、1500 萬個標註動作、15,000 小時的專家評論、23,000 份比賽報告和 103,000 條結構化統計記錄。評估體系包含 9 個任務,分為動態場景理解、因果推理、戰略模擬和智能體綜合四個層次。實驗結果顯示,現有模型在感知任務上表現不錯,例如在細粒度動作問答中達到約 73% 的準確率,但在更高層級的認知任務上性能急劇下降。特別是智能體任務最為困難,最強模型在需要自主收集和整合 180 萬片段證據的任務中,僅達到 5% 的準確率,這表明當前模型在戰略視頻智慧方面仍有重大挑戰。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence