研究06/03 24:17

透過重試實現強化學習探索的自然湧現

這篇發表於 arXiv 的研究論文探討了強化學習中探索的湧現現象。作者提出 ReMax 目標函數，通過計算策略在多個樣本上的期望最大回報來評估策略，並考慮回報的不確定性。優化 ReMax 會導致隨機探索作為一種自然屬性，而不需要額外的探索獎勵項。為了高效優化，論文推導出新的策略梯度公式，並引入 ReMax PPO (RePPO)，這是 PPO 的一個變體，能夠優化 ReMax 並將離散的重試次數 M 推廣到連續參數 m > 0，允許更精細的探索控制。在 MinAtar 和 Craftax 等基準測試上的實驗結果顯示，RePPO 能夠在沒有顯式探索獎勵的情況下促進探索行為。這項研究為強化學習算法設計提供了新視角，強調重試機制在探索中的重要作用。

來源

來源：網頁來源

網頁來源Emergence of Exploration in Policy Gradient Reinforcement Learning via Retrying