語言智能體的策略與世界建模聯合訓練框架 PaW
研究論文提出,強化學習雖然能教導語言智能體哪些動作帶來高回報,但對動作在環境中的影響監督不足。世界建模可以填補這一缺口,然而現有方法通常需要額外模擬器、訓練階段或推理時計算。論文觀察到,在線策略強化學習的推演過程已包含必要信號,每次轉換將動作與其結果觀察配對。基於此,作者提出 PaW 框架,在強化學習過程中為同一策略添加輔助世界建模監督,而不改變推理範式。為使監督資訊豐富且穩定,PaW 引入三個組件:基於動作熵的世界建模資料選擇、抗噪聲的世界建模損失,以及獎勵自適應的損失平衡。實驗在三個智能體任務基準上進行,結果顯示相對於強大的強化學習基線,在不同模型和算法中均有一致改進。這表明標準強化學習推演是語言智能體訓練中實用的世界建模監督來源。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Policy and World Modeling Co-Training for Language Agents