返回事件流

世界模型與語言模型:具體與抽象推理的互補性

研究論文提出,世界模型和多模態大語言模型在預測靜態視覺觀察的未來結果時,提供互補的能力。世界模型可以生成具體的視覺模擬,而多模態大語言模型則能對問題、目標和規則進行抽象推理。然而,生成的模擬具有隨機性,可能在視覺上合理但任務上不正確,因此需要確定何時使用視覺模擬、模擬是否可信,以及如何影響最終答案。論文將此問題形式化為受控具體推理,並提出特權未來在政策自我蒸餾(PF-OPSD)方法。在訓練期間,PF-OPSD 使用真實未來視頻和答案作為教師端特權上下文來評估在政策具體推理軌跡,而可部署的學生在測試時從不觀察真實未來。實驗結果顯示,PF-OPSD 在 VRQABench 和 OpenWorldQA 基準測試上分別超越基線 10.6% 和 10.9%,同時增加了對嘈雜或衝突模擬的魯棒性。相關程式碼和數據集已公開於 GitHub。

來源:Hugging Face / 論文來源