透過重試實現強化學習探索的自然湧現
這篇發表於 arXiv 的研究論文探討了強化學習中探索的湧現現象。作者提出 ReMax 目標函數,通過計算策略在多個樣本上的期望最大回報來評估策略,並考慮回報的不確定性。優化 ReMax 會導致隨機探索作為一種自然屬性,而不需要額外的探索獎勵項。為了高效優化,論文推導出新的策略梯度公式,並引入 ReMax PPO (RePPO),這是 PPO 的一個變體,能夠優化 ReMax 並將離散的重試次數 M 推廣到連續參數 m > 0,允許更精細的探索控制。在 MinAtar 和 Craftax 等基準測試上的實驗結果顯示,RePPO 能夠在沒有顯式探索獎勵的情況下促進探索行為。這項研究為強化學習算法設計提供了新視角,強調重試機制在探索中的重要作用。
來源
來源:網頁來源