返回事件流

同病人不同用詞,不同診斷?評估臨床大型語言模型的語義穩定性

研究論文提出,大型語言模型(LLMs)在臨床應用中的使用逐漸增加,然而其行為對微妙的語言變化高度敏感,例如重新措辭或語法變異。這種敏感性在安全關鍵的醫療環境中帶來風險,因為語義等價的輸入應產生一致的預測。為應對此挑戰,研究團隊提出一個基於自然語言推論(NLI)的語義驗證框架,用於過濾意義保留的提示變化,並透過 LLM 擔任評審者進一步精煉,再由臨床專家審核。此外,研究引入三個指標來量化模型敏感度:意義保留變化敏感度(MVS)、信心變化(ΔC)和最差情況不穩定性(WCI)。研究評估了 16 個開源的通用(GP)和醫學 LLMs,使用來自 DiagnosisQA 和 MedQA 數據集的重新措辭提示。結果顯示,領域專用(DS)模型之間的穩健性差異是混合且高度依賴模型的,即領域專用化並不一致地改善或降低對意義保留提示重新措辭的穩健性。一些 DS 模型排名在最穩健之列,而強大的 GP 基準模型也保持競爭力。

來源

來源:網頁來源