研究06/03 24:43

VLM化身教師指導影片推理，自適應測試時優化提升效能

研究論文提出了一種新的「影片推理」範式。傳統上，影片生成模型被用來產生連貫的視覺軌跡以完成推理任務，但儘管其視覺品質出色，卻常因無法理解與遵循特定任務規則而導致邏輯失敗。現有的方法嘗試讓視覺語言模型擔任「問題預解決者」，以產生或優化文字指導給影片生成模型，但文字描述難以捕捉複雜的時空細節，影片生成模型也常難以忠實執行精細或長尾指令。論文探討了將VLM角色轉變為「教師」的新思路。具體而言，一個VLM教師會提取任務特定規則，制定可微分的獎勵，並通過對輕量級LoRA模組進行測試時線上優化，來指導影片生成模型推理。這種策略實現了自適應的測試時優化，並將推理能力擴展至影片生成模型的固有邊界之外。在符號推理（VBVR-Bench）和通用推理（RULER-Bench）基準上的評估表明，該方法平均帶來了16.7分的性能提升，在相近的測試時計算成本下，大幅超越了將VLM作為問題解決者的範式（+0.4分）和最佳N個候選擴展策略（+2.2分）。這些發現揭示，將VLM整合為測試時教師，為實現可泛化的影片推理提供了一個有前景的範式。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization