返回事件流

AutoMedBench:邁向醫療自動研究的代理式 AI 模型基準測試

HuggingFace 上出現的研究論文提出了 AutoMedBench,這是一個工作流感知的基準測試,旨在評估自主代理在端到端醫療 AI 研究工作流程中的表現。論文探討指出,現有醫療代理基準測試主要評估最終輸出,對研究過程中的代理行為提供有限可見性。為了彌補這一差距,AutoMedBench 將代理執行組織為統一的五階段工作流:計劃、設置、驗證、推論和提交。它包含長期任務,每次運行平均 33 個代理回合,涵蓋五個研究軌道:分割、圖像增強、視覺問答、報告生成和病灶檢測。每個任務在兩個難度層級下評估,使用相同的數據和指標但任務簡報支架量不同。評分同時考慮最終任務表現和五階段分數,允許從初始任務簡報到最終提交制品的階段級分析。在數千次記錄運行中,階段級評分顯示驗證是平均最弱的工作流階段,而設置是最強的,表明當前代理在使管道可執行方面表現較好,但在驗證可靠性方面較差。運行後錯誤分析進一步顯示,驗證和提交失敗主導了標記錯誤,分別佔據觸發代碼的 37.7% 和 38.1%,而任務理解錯誤罕見,僅為 0.9%,且有錯誤代碼的運行平均分數比無錯誤代碼的運行低 48%。

來源:Hugging Face / 論文來源