返回事件流

AutoLab:前沿模型能否解決長期自動研究與工程任務?

根據 HuggingFace 上發表的研究論文,科學與工程進步本質上是一個長期迭代的過程,但現有基準測試主要評估單輪回應或短期軌跡,無法捕捉持續改進的挑戰。為此,論文提出了 AutoLab,一個針對超長期閉環優化的新基準測試。AutoLab 包含 36 個現實且由專家策劃的任務,涵蓋系統優化、謎題與挑戰、模型開發和 CUDA 內核優化四個領域。每個任務從一個正確但次優的基線開始,要求智能體在嚴格的時間預算內進行改進。評估了 17 個最先進的模型,結果顯示成功的關鍵不是初始嘗試的質量,而是持續基準測試、編輯和整合反饋的持久性。其中,claude-opus-4.6 展現出強大的長期優化能力,但大多數前沿模型,包括一些專有模型,要麼過早終止,要麼在預算耗盡時進展甚微。這些結果強調了自主智能體中時間意識和持續迭代的重要性。論文已開源完整的基準測試、評估工具和任務工件,以加速研究向真正有能力的長期智能體發展。

來源:Hugging Face / 論文來源