研究06/02 11:36

K-BrowseComp：基於韓國情境的網頁瀏覽代理基準測試

根據 HuggingFace 上發布的研究論文，研究人員提出了 K-BrowseComp，一個基於韓國情境的網頁瀏覽代理基準測試，共包含 400 個問題。其中 300 個問題的 K-BrowseComp-Verified 子集由韓國母語者人工構建和驗證。在這個子集上，前沿大型語言模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 的表現僅達到 30.00% 到 45.67%，相較於通用基準測試有顯著下降。韓國透過專有 AI 基礎模型計劃發布的模型表現更差，僅獲得 0.00% 到 10.33%。此外，研究人員還構建了一個 100 個問題的合成分割，使用困難的少樣本範例和針對失敗模式的生成方法，以利用解決和創建網頁瀏覽問題之間的不對稱性。在對抗性過濾的合成診斷分割上，最強模型僅達到 26.00%，並作為壓力測試單獨報告。該研究公開發布了數據和代碼。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts