返回事件流

BilliardPhys-Bench:多模態LLM物理推理基準測試

在 arXiv 上發布的研究論文提出了 BilliardPhys-Bench,這是一個針對合成撞球環境中物理推理的基準測試。該基準通過程序化引擎生成包含摩擦和彈性碰撞的隨機場景,測試模型預測球對球碰撞、牆壁反彈以及運動停止後最終球位置的能力。論文評估了來自 GPT、Claude、Gemini 和 Qwen 家族的近期多模態大型語言模型(MLLMs)。研究發現,隨著模擬時間增加和場景幾何結構複雜化,模型性能下降。此外,作者觀察到一個一致的失敗模式,稱為「停滯偏誤」:當正確的物理結果更難推斷時,模型傾向於預測沒有互動。這些發現揭示了當前 MLLMs 在視覺動態方面的不足,並指出多模態架構需要更好的物理歸納偏置。

來源

來源:網頁來源