研究06/03 24:18

代理型 Transformer 通過強化學習證明可學會搜索

研究論文提出，在隨機 k 叉樹環境中，基於 Transformer 的代理策略可以通過強化學習訓練動態學會搜索能力。論文構建了一個雙頭 Transformer 模型，其中一個頭追蹤先前動作，另一個頭偵測失敗並觸發回溯，從而實現隨機深度優先搜索。通過政策梯度在深度課程上的分析，研究顯示這種 DFS 機制從稀疏強化回饋中逐步出現，無需專家示範。結果表明，僅在深度 1 和深度 2 樹上訓練的策略能成功應用於更深的完整樹，展現深度泛化特性。此外，在目標分佈不平衡的情況下，折扣回報導致排序 DFS 策略，優先處理高概率分支。這些發現為 Transformer 搜索提供了機制範式，其中注意力頭專業化並合作提取決策相關跡象，轉化為代理動作選擇。

來源

來源：網頁來源

網頁來源Agentic Transformers Provably Learn to Search via Reinforcement Learning