研究06/05 24:09

AutoLab：前沿模型能否解決長期自動研究與工程任務？

根據 HuggingFace 上發表的研究論文，科學與工程進步本質上是一個長期迭代的過程，但現有基準測試主要評估單輪回應或短期軌跡，無法捕捉持續改進的挑戰。為此，論文提出了 AutoLab，一個針對超長期閉環優化的新基準測試。AutoLab 包含 36 個現實且由專家策劃的任務，涵蓋系統優化、謎題與挑戰、模型開發和 CUDA 內核優化四個領域。每個任務從一個正確但次優的基線開始，要求智能體在嚴格的時間預算內進行改進。評估了 17 個最先進的模型，結果顯示成功的關鍵不是初始嘗試的質量，而是持續基準測試、編輯和整合反饋的持久性。其中，claude-opus-4.6 展現出強大的長期優化能力，但大多數前沿模型，包括一些專有模型，要麼過早終止，要麼在預算耗盡時進展甚微。這些結果強調了自主智能體中時間意識和持續迭代的重要性。論文已開源完整的基準測試、評估工具和任務工件，以加速研究向真正有能力的長期智能體發展。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?