EHRBench:臨床決策LLM的自動化EHR基準測試
研究論文提出EHRBench,這是一個自動化且可靠的基準測試,專門用於評估大型語言模型在臨床決策任務中的表現。臨床決策是醫療工作流程的核心,包括診斷推斷、治療選擇和健康結果預測。論文指出,大型語言模型因具備強大的語言能力、廣泛的生物醫學知識和高效率而被應用於支持這些決策,但其在真實臨床決策任務上的可靠性仍待深入理解。為了填補這一缺口,EHRBench 透過一個基於電子健康紀錄、大型語言模型和知識庫的交互式管道建構,確保規模與品質。該基準測試自動將就診級別的EHR軌跡轉換為結構化模板,並實例化為問答項目,同時應用知識庫驗證和增強來過濾幻覺或模糊關係,提高可靠性。透過此管道,EHRBench 構建了近100萬個問答項目,涵蓋診斷、治療和預測三個核心臨床決策任務。論文評估了超過30個代表性大型語言模型,並提供了詳細的性能和穩健性分析。結果顯示一致性能力趨勢,進一步驗證了EHRBench的可靠性,並突顯了臨床可靠大型語言系統的改進空間。
來源
來源:網頁來源