研究06/03 24:47

FineVerify：透過細粒度自我驗證擴展 agentic search 測試時計算

研究論文提出 FineVerify 框架，旨在透過細粒度自我驗證改進 agentic search 的 scaling test-time compute。論文指出，agentic search 需要語言模型代理探索多源回答複雜問題，但現有方法可能因答案稀疏和模型校準問題而失敗。FineVerify 將問題分解為可檢查的子問題，驗證樣本候選並選擇最高分，從而將選擇轉化為更簡單的局部判斷。在四個 agentic search 基準測試中，FineVerify 一致優於標準方法。例如，僅用四個樣本軌跡，GPT-5-mini 提升 8.2 個準確率點，Gemini-3-flash 平均提升 5.6%。使用 12 個樣本時，GPT-5-mini 在 BrowseComp-Plus 上超越前沿的 GPT-5。此外，框架產生可解釋的驗證軌跡，有助於審計基準錯誤，擴展應用於檢查 agentic search 系統。程式碼和資料已公開於 GitHub。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search