研究06/01 12:07

BilliardPhys-Bench：多模態LLM物理推理基準測試

在 arXiv 上發布的研究論文提出了 BilliardPhys-Bench，這是一個針對合成撞球環境中物理推理的基準測試。該基準通過程序化引擎生成包含摩擦和彈性碰撞的隨機場景，測試模型預測球對球碰撞、牆壁反彈以及運動停止後最終球位置的能力。論文評估了來自 GPT、Claude、Gemini 和 Qwen 家族的近期多模態大型語言模型（MLLMs）。研究發現，隨著模擬時間增加和場景幾何結構複雜化，模型性能下降。此外，作者觀察到一個一致的失敗模式，稱為「停滯偏誤」：當正確的物理結果更難推斷時，模型傾向於預測沒有互動。這些發現揭示了當前 MLLMs 在視覺動態方面的不足，並指出多模態架構需要更好的物理歸納偏置。

來源

來源：網頁來源

網頁來源BilliardPhys-Bench: Benchmarking Physical Reasoning and Visual Dynamics of Multimodal LLMs