別賭博,GAMBLe:AI 驅動研究系統的分析框架
研究論文提出一個名為 GAMBLe 的分析框架,專門用於分析 AI 驅動研究系統(ADRS)。這些系統結合大型語言模型(LLMs)和自動化評估來發現算法、證明和設計,但現有分析工具未能跟上其發展。GAMBLe 框架將 ADRS 行為分解為四個參數:生成器、評估器、發現機制和預算,以及一個組合對象,稱為有效景觀。論文探討如何通過這個框架來理解不同組件組合如何影響優化過程。為了驗證框架的有效性,研究者進行了大規模實驗,涉及超過 760 次複製運行和超過 46,000 次迭代,測試了各種生成器和機制,包括從單一 LLM 到動態自適應集成,以及從貪婪選擇到協同進化元搜索的機制。實驗結果表明,在有限預算約束下,正確的組件選擇可以顯著提升系統性能,改善幅度達 13-67%,同時搜索效率提高 6-39 倍。值得注意的是,研究發現前沿模型有時表現不如開源替代方案,而最簡單的機制偶爾能超越先進的元搜索方法,這表明 ADRS 的設計需要細緻的組件匹配和優化。
來源
來源:網頁來源