研究06/02 24:11

iVGR：強化學習內部化 MLLMs 的視覺接地推理

根據 HuggingFace 上發布的一項研究論文，多模態大型語言模型（MLLMs）在視覺接地思維鏈（CoT）方面的效能仍有待探索。研究人員發現，在推理階段強制要求使用顯式物件框的視覺接地 CoT，相較於標準文本 CoT，往往會導致性能下降。他們假設視覺定位能力可以被內部化到文本 CoT 中，而強制顯式接地會對模型的主要目標——答案預測造成不必要的干擾。為解決此問題，論文提出了一個新穎的強化學習框架，稱為內部化視覺接地推理（iVGR）。iVGR 採用雙流訓練策略，透過提出的一致性獎勵，將文本流與高品質的視覺接地流對齊，使模型能夠在推理時準確定位，而無需顯式接地。實驗結果表明，該方法在精細基準測試上顯著優於現有基線，同時保持了支持工具輔助推理工作流程的靈活性。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning