返回事件流

OpenWebRL:揭秘視覺網頁代理的線上多輪強化學習

研究論文提出 OpenWebRL,這是一個開放框架,用於透過線上多輪強化學習訓練視覺網頁代理。論文探討指出,該框架涵蓋完整的訓練流程,包括可擴展的即時瀏覽器基礎設施、監督初始化、多模態上下文管理、軌跡級成功判斷和高效的多輪策略優化。使用此框架訓練的 OpenWebRL-4B 模型,在挑戰性的即時網頁基準測試 Online-Mind2Web 和 DeepShop 上分別達到 67.0% 和 64.0% 的成功率,建立了新的開源最佳成績,優於先前規模相似或更大的開源代理,並與 OpenAI CUA 和 Gemini CUA 等專有系統保持競爭力。此外,論文系統性地研究了使線上強化學習對視覺網頁代理有效的關鍵設計選擇,並分析了強化學習如何改善代理推理。整體而言,這項工作提供了一條實用路徑,以建立更強大、可重現且成本效益高的開源網頁代理,並將發布訓練數據、模型和代碼以支持未來研究。

來源

來源:Hugging Face / 論文來源