用於安全強化學習的穩健屏蔽框架
研究論文提出了一種新穎的屏蔽框架,專為穩健馬可夫決策過程(RMDPs)設計,以解決強化學習中的安全問題。現有屏蔽技術通常假設已知安全相關的轉移動態,但在實際應用中難以滿足這一要求。此框架將安全定義為在最壞情況下的轉移機率下,滿足線性時序邏輯(LTL)公式的機率閾值。作者嚴格證明該框架對於RMDPs是健全且最優的,即所有被屏蔽允許的策略都是安全的,且所有安全的RMDP策略都被屏蔽允許。此外,研究結合現有採樣方法與可能近似正確(PAC)保證,使屏蔽的構建能在高信心下進行,確保安全同時保持最小限制。實驗結果顯示,對於學習的RMDPs,屏蔽在未知馬可夫決策過程(MDPs)中能保證安全性,並隨著樣本數的增加恢復強預期回報。這項研究為強化學習的安全保障提供了理論基礎和實用工具。
來源
來源:網頁來源