研究06/02 12:08

用於安全強化學習的穩健屏蔽框架

研究論文提出了一種新穎的屏蔽框架，專為穩健馬可夫決策過程（RMDPs）設計，以解決強化學習中的安全問題。現有屏蔽技術通常假設已知安全相關的轉移動態，但在實際應用中難以滿足這一要求。此框架將安全定義為在最壞情況下的轉移機率下，滿足線性時序邏輯（LTL）公式的機率閾值。作者嚴格證明該框架對於RMDPs是健全且最優的，即所有被屏蔽允許的策略都是安全的，且所有安全的RMDP策略都被屏蔽允許。此外，研究結合現有採樣方法與可能近似正確（PAC）保證，使屏蔽的構建能在高信心下進行，確保安全同時保持最小限制。實驗結果顯示，對於學習的RMDPs，屏蔽在未知馬可夫決策過程（MDPs）中能保證安全性，並隨著樣本數的增加恢復強預期回報。這項研究為強化學習的安全保障提供了理論基礎和實用工具。

來源

來源：網頁來源

網頁來源Robust Shielding for Safe Reinforcement Learning