MindZero:零標註線上心智推理學習框架
研究論文提出 MindZero,一個創新的自監督強化學習框架,旨在訓練多模態大型語言模型進行線上心智推理。該框架解決了現實世界中 AI 助理面臨的多項挑戰,包括如何在多假設中進行線上推理並更新不確定性、實現實時適用的高效推理,以及缺乏標註數據的問題。在訓練過程中,MindZero 模型透過生成心理狀態假設來最大化觀察行為的似然估計,從而無需明確標註。訓練完成後,框架將模型基礎推理內化為快速的單次推理。論文在網格世界和家庭環境中評估 MindZero,結果顯示,單獨使用大型語言模型不足,模型基礎方法雖提高準確性但速度慢、成本高且受限於模型能力。相比之下,MindZero 增強了多模態大型語言模型的內在心智理論能力,在準確性和效率上均顯著超越傳統方法,表明心智推理可作為自監督技能被有效學習。
來源
來源:網頁來源