返回事件流

BenchEvolver:解決方案中心的進化框架生成更難基準任務

研究論文提出BenchEvolver,一個解決方案中心的進化框架,用於自動生成更難的編碼任務。由於前沿大型語言模型的快速進展,現有基準如LiveCodeBench已趨於飽和,模型在簡單分段上的Pass@1超過99%,平均超過90%,難以區分模型能力或提供有用的訓練信號。BenchEvolver通過進化現有問題的參考解決方案,並派生對應陳述和測試,從而創建高品質、多樣且困難的任務,同時確保正確性。應用於LiveCodeBench和SciCode後,生成的任務難度顯著提高。研究人員還創建了LiveCodeBench-Plus,包含91個問題,前沿模型的Pass@1範圍從27.5%到62.6%,恢復了模型間的區分能力。進化任務對生成它們的模型仍然具有挑戰性,支持自我改進。此外,在進化任務上進行強化學習可以提高編碼性能,例如對於gpt-oss-20b,種子加進化訓練在LCB v6 Hard和LCB-Pro Easy上分別獲得+8.7和+8.3的Pass@1增益,超過僅種子訓練的增益。這些結果顯示BenchEvolver能將飽和基準轉化為前沿級評估套件和可重用的訓練信號。

來源:Hugging Face / 論文來源