VLM化身教師指導影片推理,自適應測試時優化提升效能
研究論文提出了一種新的「影片推理」範式。傳統上,影片生成模型被用來產生連貫的視覺軌跡以完成推理任務,但儘管其視覺品質出色,卻常因無法理解與遵循特定任務規則而導致邏輯失敗。現有的方法嘗試讓視覺語言模型擔任「問題預解決者」,以產生或優化文字指導給影片生成模型,但文字描述難以捕捉複雜的時空細節,影片生成模型也常難以忠實執行精細或長尾指令。論文探討了將VLM角色轉變為「教師」的新思路。具體而言,一個VLM教師會提取任務特定規則,制定可微分的獎勵,並通過對輕量級LoRA模組進行測試時線上優化,來指導影片生成模型推理。這種策略實現了自適應的測試時優化,並將推理能力擴展至影片生成模型的固有邊界之外。在符號推理(VBVR-Bench)和通用推理(RULER-Bench)基準上的評估表明,該方法平均帶來了16.7分的性能提升,在相近的測試時計算成本下,大幅超越了將VLM作為問題解決者的範式(+0.4分)和最佳N個候選擴展策略(+2.2分)。這些發現揭示,將VLM整合為測試時教師,為實現可泛化的影片推理提供了一個有前景的範式。
來源
來源:Hugging Face / 論文來源