研究06/02 24:08

雙時間尺度馬爾可夫隨機近似在強化學習中的收斂性研究

研究論文提出，在馬爾可夫雜訊下建立雙時間尺度隨機近似的穩定性和收斂性。這類算法用於強化學習，如時序差分學習與梯度校正（TDC）和演員-評論家方法。先前研究僅在獨立同分佈雜訊下證明收斂性，而本工作在更現實的馬爾可夫設置下進行，無需使用投影運算子或要求雜訊限制在緊空間中。關鍵技術新穎性在於，利用慢速時間尺度參數的運行最大值來控制快速時間尺度參數，這與先前工作使用當前慢速時間尺度參數的方式不同。作為重要應用，本研究首次證明在off-policy學習中，使用線性函數逼近的TDC帶資格跡的幾乎肯定收斂性，這對強化學習算法的理論發展和實際應用具有重要意義。

來源

來源：網頁來源

網頁來源Convergence of Two-Timescale Markovian Stochastic Approximations with Applications in Reinforcement Learning