返回事件流

SoundnessBench:你的AI科學家真的能分辨研究點子的好壞嗎?

在科學發現自動化的浪潮中,自主人工智慧研究代理旨在加速從假設生成到同儕評審的整個研究流程。然而,現有基準測試很少測試一個根本瓶頸:大型語言模型能否在投入時間和計算資源前判斷研究點子的方法論可行性。研究論文提出SoundnessBench,這是一個精心策劃的基準測試,包含1,099個從ICLR提交重建的機器學習研究提案,並標註了審稿人的可行性評分。論文探討SoundnessBench的設計理念,強調它應被解釋為可恢復的提案階段可行性基準,而非完整論文評審結果的精確預測。跨12個前沿大型語言模型的測試揭示了普遍的樂觀偏誤:在標準提示下,模型傾向於將低可行性提案評為可行;而積極提示則主要將錯誤從假陽性轉為假陰性。研究還進行了額外控制,包括檢查公共語料庫污染、論文識別短語、表面特徵和人類審計質量,結果顯示這些偏誤並非由單一因素導致。最終,研究結果表明,現階段大型語言模型尚不能作為獨立的第一關評估工具來確保科學嚴謹性。

來源

來源:Hugging Face / 論文來源