研究06/04 14:25

AutoMedBench：邁向醫療自動研究的代理式 AI 模型基準測試

HuggingFace 上出現的研究論文提出了 AutoMedBench，這是一個工作流感知的基準測試，旨在評估自主代理在端到端醫療 AI 研究工作流程中的表現。論文探討指出，現有醫療代理基準測試主要評估最終輸出，對研究過程中的代理行為提供有限可見性。為了彌補這一差距，AutoMedBench 將代理執行組織為統一的五階段工作流：計劃、設置、驗證、推論和提交。它包含長期任務，每次運行平均 33 個代理回合，涵蓋五個研究軌道：分割、圖像增強、視覺問答、報告生成和病灶檢測。每個任務在兩個難度層級下評估，使用相同的數據和指標但任務簡報支架量不同。評分同時考慮最終任務表現和五階段分數，允許從初始任務簡報到最終提交制品的階段級分析。在數千次記錄運行中，階段級評分顯示驗證是平均最弱的工作流階段，而設置是最強的，表明當前代理在使管道可執行方面表現較好，但在驗證可靠性方面較差。運行後錯誤分析進一步顯示，驗證和提交失敗主導了標記錯誤，分別佔據觸發代碼的 37.7% 和 38.1%，而任務理解錯誤罕見，僅為 0.9%，且有錯誤代碼的運行平均分數比無錯誤代碼的運行低 48%。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源AutoMedBench: Towards Medical AutoResearch with Agentic AI Models