恢復政策誘導錯誤:為穩健 GUI 代理引入基準測試與軌跡合成
研究論文提出,圖形用戶介面(GUI)代理在快速發展的同時,往往缺乏從自身錯誤中恢復的穩健性,這成為實際部署的障礙。為解決評估和數據層面的缺口,研究團隊引入了 GUI-RobustEval 基準測試,該基準包含 1,216 個可執行測試案例,能系統性地衡量廣泛且真實錯誤模式下的恢復能力。在數據層面,他們提出 Robustness-driven Trajectory Synthesis (RoTS) 框架,這是一個可擴展的合成方法,透過樹狀管道主動發現多樣錯誤模式並合成對應恢復步驟,從而創建了 80 萬個高品質數據。基於此數據集微調的模型 RoTS-7B 和 RoTS-32B,在 GUI-RobustEval 和傳統 GUI 基準上均表現出顯著提升。特別是 RoTS-32B 在 OSWorld 基準上達到 state-of-the-art 成績,成功率为 47.4%,All-Pass@4 分數為 33.8%,這表明長期錯誤恢復能力的增強不僅提升了穩健性,也貢獻於整體性能。研究相關的代碼已公開於 GitHub 平台。
來源
來源:Hugging Face / 論文來源