返回事件流

FineVerify:透過細粒度自我驗證擴展 agentic search 測試時計算

研究論文提出 FineVerify 框架,旨在透過細粒度自我驗證改進 agentic search 的 scaling test-time compute。論文指出,agentic search 需要語言模型代理探索多源回答複雜問題,但現有方法可能因答案稀疏和模型校準問題而失敗。FineVerify 將問題分解為可檢查的子問題,驗證樣本候選並選擇最高分,從而將選擇轉化為更簡單的局部判斷。在四個 agentic search 基準測試中,FineVerify 一致優於標準方法。例如,僅用四個樣本軌跡,GPT-5-mini 提升 8.2 個準確率點,Gemini-3-flash 平均提升 5.6%。使用 12 個樣本時,GPT-5-mini 在 BrowseComp-Plus 上超越前沿的 GPT-5。此外,框架產生可解釋的驗證軌跡,有助於審計基準錯誤,擴展應用於檢查 agentic search 系統。程式碼和資料已公開於 GitHub。

來源

來源:Hugging Face / 論文來源