研究06/04 24:08

SVI-Bench：用於戰略視頻智慧的動態微世界

研究論文提出，SVI-Bench 是一個大規模基準，旨在評估戰略視頻智慧（SVI），涵蓋從視覺感知到因果推理和戰略規劃的進階能力。該基準利用團隊運動（如籃球、足球和曲棍球）作為動態微世界，結合同時真實多智能體系統的複雜性和明確規則的可驗證性。數據規模龐大，包括約 35,000 小時的廣播視頻、1500 萬個標註動作、15,000 小時的專家評論、23,000 份比賽報告和 103,000 條結構化統計記錄。評估體系包含 9 個任務，分為動態場景理解、因果推理、戰略模擬和智能體綜合四個層次。實驗結果顯示，現有模型在感知任務上表現不錯，例如在細粒度動作問答中達到約 73% 的準確率，但在更高層級的認知任務上性能急劇下降。特別是智能體任務最為困難，最強模型在需要自主收集和整合 180 萬片段證據的任務中，僅達到 5% 的準確率，這表明當前模型在戰略視頻智慧方面仍有重大挑戰。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence