返回事件流

重定向 Levin 樹搜索的結構資訊研究

研究論文提出一種使用學習到的重定向器(rerooter)通過最近引入的 √LTS 算法來改進子目標策略樹搜索的方法。傳統的子目標策略樹搜索在複雜單智能體確定性問題中有效,但往往依賴顯式子目標生成,這會產生 substantial overhead 並阻礙可擴展性。本文透過重定向器隱式地將問題分解為軟子任務來克服這些限制。先前研究側重於給定或手工設計的重定向器的形式保證,而本文提出了三種重定向器設計:基於聚類的重定向器,利用全局狀態空間結構;基於啟發式的重定向器,利用學習到的成本到達估計;以及結合兩種信號的混合設計。我們的框架避免了必須顯式重建和推理生成的子目標,從而能夠以顯著降低的計算開銷進行可擴展的搜索努力分配。實驗結果顯示,基於重定向的方法在子目標策略樹搜索失敗的複雜環境中擴展,並在測試領域實現了最先進的在線訓練效率。

來源

來源:網頁來源