返回事件流

醫學大型語言模型的多領域紅隊評估框架

研究論文提出了一個多領域紅隊框架,專門用於評估醫學大型語言模型在安全性、穩健性和公平性方面的表現。該框架評估了11個當代LLMs,涵蓋690個基於臨床的場景,分佈在9個領域和超過150個子類別中,場景設計融入了對抗性轉換。回應通過七維評估標準進行評分,並結合LLM輔助評分和人工驗證。結果顯示,模型間的性能差異顯著,平均得分從0.791到0.984不等,其中一些高表現系統在個別安全關鍵場景中完全失敗,顯示聚合準確度可能掩蓋臨床風險。表現最佳的系統如X-BAI、GPT-5和Claude Opus 4.1得分超過0.97且方差低,但跨領域表現差異大。公平相關任務在人口統計修改下錯誤放大10-20%,且人類審查者識別出自動評估遺漏的臨床相關失敗。研究結論強調,性能差異和最壞情況失敗比單純的平均準確度更能提供臨床意義上的可靠性指標,混合評估方法結合自動化與臨床醫師監督對於可信的安全評估至關重要。

來源

來源:網頁來源