返回事件流

雙時間尺度馬爾可夫隨機近似在強化學習中的收斂性研究

研究論文提出,在馬爾可夫雜訊下建立雙時間尺度隨機近似的穩定性和收斂性。這類算法用於強化學習,如時序差分學習與梯度校正(TDC)和演員-評論家方法。先前研究僅在獨立同分佈雜訊下證明收斂性,而本工作在更現實的馬爾可夫設置下進行,無需使用投影運算子或要求雜訊限制在緊空間中。關鍵技術新穎性在於,利用慢速時間尺度參數的運行最大值來控制快速時間尺度參數,這與先前工作使用當前慢速時間尺度參數的方式不同。作為重要應用,本研究首次證明在off-policy學習中,使用線性函數逼近的TDC帶資格跡的幾乎肯定收斂性,這對強化學習算法的理論發展和實際應用具有重要意義。

來源

來源:網頁來源