K-BrowseComp:基於韓國情境的網頁瀏覽代理基準測試
根據 HuggingFace 上發布的研究論文,研究人員提出了 K-BrowseComp,一個基於韓國情境的網頁瀏覽代理基準測試,共包含 400 個問題。其中 300 個問題的 K-BrowseComp-Verified 子集由韓國母語者人工構建和驗證。在這個子集上,前沿大型語言模型如 GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 的表現僅達到 30.00% 到 45.67%,相較於通用基準測試有顯著下降。韓國透過專有 AI 基礎模型計劃發布的模型表現更差,僅獲得 0.00% 到 10.33%。此外,研究人員還構建了一個 100 個問題的合成分割,使用困難的少樣本範例和針對失敗模式的生成方法,以利用解決和創建網頁瀏覽問題之間的不對稱性。在對抗性過濾的合成診斷分割上,最強模型僅達到 26.00%,並作為壓力測試單獨報告。該研究公開發布了數據和代碼。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts