POMDPs價值函數半代數集合幾何表徵研究
研究論文探討在無限時間水平、使用無記憶隨機策略的部分可觀測馬可夫決策過程(POMDPs)中,可行價值函數的幾何結構。論文提出的主要貢獻是將價值函數的可行集合表徵為一個半代數集合,這由轉移動態、觀測核和獎勵結構所決定的顯式多項式不等式定義。此結果擴展了先前對完全可觀測馬可夫決策過程(MDPs)的工作,在MDPs中可行集合是一個多面體,而在部分可觀測設定下則更為複雜。與MDPs中的多面體結構相比,部分可觀測性導致根本性的非線性約束,從而產生更豐富和複雜的幾何結構。論文的幾何表徵為MDPs和POMDPs中的政策優化提供了新的洞察,並揭示了部分可觀測性獨有的定性現象,包括長期回報的孤立局部最大化者的出現及其對初始狀態分佈的依賴。這些發現有助於更深入理解部分可觀測環境中的強化學習問題,為未來研究奠定幾何基礎。
來源:網頁來源