從示範到獎勵:VLM 獎勵模型的測試時提示優化
研究論文提出一種名為 Demo2Reward 的測試時適應技術,旨在優化視覺語言模型(VLM)作為獎勵模型時的語言指令。強化學習依賴準確的獎勵函數,但在現實應用如機器人學中,這些函數往往手工設計或難以取得。近期研究探索了預訓練 VLM 的零樣本推理能力,但若提示工程不當,容易產生次優獎勵,其中假陽性預測會嚴重影響下游策略學習。在機器人學中,有限的專家示範數據常用於引導策略學習,這為在策略訓練前優化獎勵模型提供了機會。Demo2Reward 利用少數示範軌跡(3-10 條)來優化獎勵模型的語言指令,以減少假陽性同時保留真陽性。重要的是,這種方法在策略學習期間無需額外模型訓練或計算資源。論文顯示,Demo2Reward 在多種模擬機器人任務和策略骨幹上,一致優於現有的零樣本和少樣本 VLM 獎勵模型。最後,論文展示 Demo2Reward 有效轉移到真實世界機器人學習場景,實現無需手動設計獎勵函數的策略學習。
來源
來源:網頁來源