PhyDrawGen:從自然語言生成物理圖表的框架
研究論文提出 PhyDrawGen,這是一個神經符號管道,專門用於從自然語言描述生成物理圖表。論文指出,當前生成式模型如 GPT-5-image 和 Gemini 在處理物理圖表時,經常出現力向量的幻覺、忽略守恆定律以及違反幾何約束等問題。PhyDrawGen 通過將語義場景理解與物理約束滿足解耦來解決這些挑戰。首先,一個大型語言模型從問題文本中提取一個類型化的場景圖。接著,一個確定性求解器將這個圖轉換為平面直線圖,將力平衡、光路和場拓撲編碼為精確的幾何原語。最後,一個微調的 Qwen-VL 模型實現一個視覺基礎的提議-驗證循環,迭代地糾正任何約束違反。研究在包含力學、光學和電磁學的 1,449 個問題基準測試中評估了 PhyDrawGen,結果顯示它顯著優於 GPT-5-image、Gemini 2.5 Flash 和 Gemini 3 Pro 等模型,即使在不尋常物體的問題上也展現出穩健的物理準確性。這一方法為生成符合物理定律的圖表提供了新的解決方案,展示了神經符號方法在物理約束任務中的潛力。
來源
來源:網頁來源