返回事件流

代理型 Transformer 通過強化學習證明可學會搜索

研究論文提出,在隨機 k 叉樹環境中,基於 Transformer 的代理策略可以通過強化學習訓練動態學會搜索能力。論文構建了一個雙頭 Transformer 模型,其中一個頭追蹤先前動作,另一個頭偵測失敗並觸發回溯,從而實現隨機深度優先搜索。通過政策梯度在深度課程上的分析,研究顯示這種 DFS 機制從稀疏強化回饋中逐步出現,無需專家示範。結果表明,僅在深度 1 和深度 2 樹上訓練的策略能成功應用於更深的完整樹,展現深度泛化特性。此外,在目標分佈不平衡的情況下,折扣回報導致排序 DFS 策略,優先處理高概率分支。這些發現為 Transformer 搜索提供了機制範式,其中注意力頭專業化並合作提取決策相關跡象,轉化為代理動作選擇。

來源

來源:網頁來源