iVGR:強化學習內部化 MLLMs 的視覺接地推理
根據 HuggingFace 上發布的一項研究論文,多模態大型語言模型(MLLMs)在視覺接地思維鏈(CoT)方面的效能仍有待探索。研究人員發現,在推理階段強制要求使用顯式物件框的視覺接地 CoT,相較於標準文本 CoT,往往會導致性能下降。他們假設視覺定位能力可以被內部化到文本 CoT 中,而強制顯式接地會對模型的主要目標——答案預測造成不必要的干擾。為解決此問題,論文提出了一個新穎的強化學習框架,稱為內部化視覺接地推理(iVGR)。iVGR 採用雙流訓練策略,透過提出的一致性獎勵,將文本流與高品質的視覺接地流對齊,使模型能夠在推理時準確定位,而無需顯式接地。實驗結果表明,該方法在精細基準測試上顯著優於現有基線,同時保持了支持工具輔助推理工作流程的靈活性。
來源
來源:Hugging Face / 論文來源