研究06/01 12:06

EHRBench：臨床決策LLM的自動化EHR基準測試

研究論文提出EHRBench，這是一個自動化且可靠的基準測試，專門用於評估大型語言模型在臨床決策任務中的表現。臨床決策是醫療工作流程的核心，包括診斷推斷、治療選擇和健康結果預測。論文指出，大型語言模型因具備強大的語言能力、廣泛的生物醫學知識和高效率而被應用於支持這些決策，但其在真實臨床決策任務上的可靠性仍待深入理解。為了填補這一缺口，EHRBench 透過一個基於電子健康紀錄、大型語言模型和知識庫的交互式管道建構，確保規模與品質。該基準測試自動將就診級別的EHR軌跡轉換為結構化模板，並實例化為問答項目，同時應用知識庫驗證和增強來過濾幻覺或模糊關係，提高可靠性。透過此管道，EHRBench 構建了近100萬個問答項目，涵蓋診斷、治療和預測三個核心臨床決策任務。論文評估了超過30個代表性大型語言模型，並提供了詳細的性能和穩健性分析。結果顯示一致性能力趨勢，進一步驗證了EHRBench的可靠性，並突顯了臨床可靠大型語言系統的改進空間。

來源

來源：網頁來源

網頁來源EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs