返回事件流

物理知情目標條件強化學習於接觸動力學研究

在最新發表於arXiv的研究論文中,學者探討了物理知情的目標條件強化學習(Pi-GCRL)在混合接觸動力學下的應用。論文指出,傳統的目標條件強化學習(GCRL)旨在從稀疏反饋中學習達到任意目標,但當動力學環境變得高維、混合或高度接觸依賴時,其跨目標推廣能力會面臨挑戰。Pi-GCRL 透過引入最優控制啟發的歸納偏置來改進目標條件價值學習,然而在接觸豐富的操作任務中,如機器人抓取或物體操弄,接觸交互會誘發混合動力學、模式依賴的可控性以及非光滑的價值景觀,這可能導致現有方法退化。基於此分析,研究提出了接觸感知和層次化的公式,選擇性地將物理知情的歸納偏置應用於操作問題,以提升在接觸豐富情境下的表現。研究結果為將 Pi-GCRL 擴展到更複雜的接觸豐富操作提供了原則性基礎,有助於推動強化學習在機器人領域的應用。

來源

來源:網頁來源