研究06/02 24:10

恢復政策誘導錯誤：為穩健 GUI 代理引入基準測試與軌跡合成

研究論文提出，圖形用戶介面（GUI）代理在快速發展的同時，往往缺乏從自身錯誤中恢復的穩健性，這成為實際部署的障礙。為解決評估和數據層面的缺口，研究團隊引入了 GUI-RobustEval 基準測試，該基準包含 1,216 個可執行測試案例，能系統性地衡量廣泛且真實錯誤模式下的恢復能力。在數據層面，他們提出 Robustness-driven Trajectory Synthesis (RoTS) 框架，這是一個可擴展的合成方法，透過樹狀管道主動發現多樣錯誤模式並合成對應恢復步驟，從而創建了 80 萬個高品質數據。基於此數據集微調的模型 RoTS-7B 和 RoTS-32B，在 GUI-RobustEval 和傳統 GUI 基準上均表現出顯著提升。特別是 RoTS-32B 在 OSWorld 基準上達到 state-of-the-art 成績，成功率为 47.4%，All-Pass@4 分數為 33.8%，這表明長期錯誤恢復能力的增強不僅提升了穩健性，也貢獻於整體性能。研究相關的代碼已公開於 GitHub 平台。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents