基礎模型能否透過主動探索達到目標視角?
研究論文提出了一項稱為目標視角重現(TVR)的主動任務,要求智能體在3D環境中調整其視角,直到觀察與給定目標圖像匹配。為此,研究引入了TVRBench室內模擬基準測試,涵蓋場景尺度和目標視覺豐富度。評估顯示,現有開源和閉源模型的成功率僅達7.8%和12.0%,暴露了瓶頸:模型在多輪視覺歷史處理和需要身體平移的視角重現方面表現不佳。為改善此情況,研究建立統一的TVR後訓練框架,包括專家軌跡監督微調、推理監督思維鏈微調、離線單輪GRPO和在線多輪GRPO。結果表明,視覺動作監督微調將9B開源模型成功率提升至50.8%,而多輪GRPO進一步優化至51.4%。這些成果確立了TVRBench作為測量和訓練基礎模型在3D環境中主動感知與行動能力的測試平台。代碼、數據和模型已公開於GitHub。
來源
來源:Hugging Face / 論文來源