研究06/05 24:06

BenchEvolver：解決方案中心的進化框架生成更難基準任務

研究論文提出BenchEvolver，一個解決方案中心的進化框架，用於自動生成更難的編碼任務。由於前沿大型語言模型的快速進展，現有基準如LiveCodeBench已趨於飽和，模型在簡單分段上的Pass@1超過99%，平均超過90%，難以區分模型能力或提供有用的訓練信號。BenchEvolver通過進化現有問題的參考解決方案，並派生對應陳述和測試，從而創建高品質、多樣且困難的任務，同時確保正確性。應用於LiveCodeBench和SciCode後，生成的任務難度顯著提高。研究人員還創建了LiveCodeBench-Plus，包含91個問題，前沿模型的Pass@1範圍從27.5%到62.6%，恢復了模型間的區分能力。進化任務對生成它們的模型仍然具有挑戰性，支持自我改進。此外，在進化任務上進行強化學習可以提高編碼性能，例如對於gpt-oss-20b，種子加進化訓練在LCB v6 Hard和LCB-Pro Easy上分別獲得+8.7和+8.3的Pass@1增益，超過僅種子訓練的增益。這些結果顯示BenchEvolver能將飽和基準轉化為前沿級評估套件和可重用的訓練信號。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution