目標更新可能穩定線性Q學習:週期性與軟性動態
這篇研究論文提出,對於線性Q學習中的目標更新機制進行了嚴格的理論分析。論文指出,週期性目標更新在Q學習和軟目標更新在演員-評論家方法中,是經驗上廣為人知的穩定機制,但其精確的理論解釋仍不完整。作者使用由貝爾曼最大值和切換矩陣族的聯合譜半徑所誘導的精確切換線性系統動力學,對這些機制進行了嚴格且精確的分析。儘管線性Q學習一般可能無法收斂,但研究證明,在明確的譜和步長條件下,週期性硬目標更新和軟目標更新可以保證收斂到精確的投影Q-貝爾曼解。主要分析針對確定性線性Q學習進行,因為目標更新機制最為透明。一旦為平均遞歸建立了相應的聯合譜半徑證書,就可以通過將確定性模式替換為採樣的隨機模式並添加相應的隨機噪聲分析,來處理隨機強化學習設置。這項理論貢獻有助於深化對強化學習算法穩定性的理解。
來源
來源:網頁來源