返回事件流

自動駕駛強化學習中的不確定性感知與時間調節專家建議框架

研究論文提出一個不確定性感知的框架,旨在解決強化學習在自動駕駛應用中探索過程的不安全性問題。論文探討指出,智能體必須經歷新行為以學習,但探索可能導致碰撞或偏離道路。為此,框架利用專家建議來引導探索,並避免長期依賴。當認知或隨機不確定性超過自適應閾值時,系統會觸發建議,這些閾值基於滾動緩衝區動態調整,確保建議隨智能體的信心演變。此外,採用承諾-冷卻策略和隨機早期停止啟發式方法來調節指導的持續時間和頻率,使智能體接觸連貫的操作而不耗盡建議預算。專家和智能體的經驗被結合在一個共享重播緩衝區中,使用離策略隱式分位數網絡骨幹,實現專家軌跡的高效重用。在CARLA模擬環境中的實驗表明,該方法優於IQN基線,成功率提高5-7%,並減少失敗,證明風險敏感的不確定性結合受控的專家整合能夠為基於傳感器的強化學習策略在無信號交叉口導航中實現更安全且高效的探索。

來源

來源:網頁來源