研究06/03 24:16

從示範到獎勵：VLM 獎勵模型的測試時提示優化

研究論文提出一種名為 Demo2Reward 的測試時適應技術，旨在優化視覺語言模型（VLM）作為獎勵模型時的語言指令。強化學習依賴準確的獎勵函數，但在現實應用如機器人學中，這些函數往往手工設計或難以取得。近期研究探索了預訓練 VLM 的零樣本推理能力，但若提示工程不當，容易產生次優獎勵，其中假陽性預測會嚴重影響下游策略學習。在機器人學中，有限的專家示範數據常用於引導策略學習，這為在策略訓練前優化獎勵模型提供了機會。Demo2Reward 利用少數示範軌跡（3-10 條）來優化獎勵模型的語言指令，以減少假陽性同時保留真陽性。重要的是，這種方法在策略學習期間無需額外模型訓練或計算資源。論文顯示，Demo2Reward 在多種模擬機器人任務和策略骨幹上，一致優於現有的零樣本和少樣本 VLM 獎勵模型。最後，論文展示 Demo2Reward 有效轉移到真實世界機器人學習場景，實現無需手動設計獎勵函數的策略學習。

來源

來源：網頁來源

網頁來源From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models