研究06/02 11:36

基礎模型能否透過主動探索達到目標視角？

研究論文提出了一項稱為目標視角重現（TVR）的主動任務，要求智能體在3D環境中調整其視角，直到觀察與給定目標圖像匹配。為此，研究引入了TVRBench室內模擬基準測試，涵蓋場景尺度和目標視覺豐富度。評估顯示，現有開源和閉源模型的成功率僅達7.8%和12.0%，暴露了瓶頸：模型在多輪視覺歷史處理和需要身體平移的視角重現方面表現不佳。為改善此情況，研究建立統一的TVR後訓練框架，包括專家軌跡監督微調、推理監督思維鏈微調、離線單輪GRPO和在線多輪GRPO。結果表明，視覺動作監督微調將9B開源模型成功率提升至50.8%，而多輪GRPO進一步優化至51.4%。這些成果確立了TVRBench作為測量和訓練基礎模型在3D環境中主動感知與行動能力的測試平台。代碼、數據和模型已公開於GitHub。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?