通用或特定嵌入哪個更好?非英語臨床編碼檢索實證研究
研究論文探討,當前句子嵌入模型主要針對英語語料開發與評估,應用於其他語言的臨床檢索時,特別是ICD-10-CM或CIE-10代碼檢索,召回率會下降,且常被整體基準掩蓋。為了解決此問題,本研究提出利用大型生成式語言模型作為數據工廠,生成合成數據以訓練模型。研究團隊構建了一個兩階段檢索器架構,包括雙編碼器和跨編碼器重排器,基於一個西班牙語生物醫學編碼器(PlanTL-GOB-ES/bsc-bio-ehr-es)進行微調,並使用Gemini生成的合成數據對,覆蓋英語、西班牙語、加泰羅尼亞語、意大利語、葡萄牙語和法語。實驗評估對比了BioBERT-ST和未微調的西班牙語編碼器。結果顯示,僅雙編碼器在平均倒數排名(MRR)上達到0.876,超越BioBERT-ST的0.866,在R@3和R@5指標上也分別為0.650和0.804,優於基準。加入跨編碼器重排器後,整體R@5提升至0.822,並在四種語言(西班牙語、加泰羅尼亞語、法語、葡萄牙語)上均有顯著增益,僅英語略有回歸。臨床應用上,這一權衡是可接受的,例如葡萄牙語的R@5達到0.829,相較BioBERT-ST的0.714有大幅提升。本研究的貢獻包括提供了一個開放的配方,用於從大型語言模型生成數據來構建領域特定的醫療檢索器;量化了學習增益,從MRR 0.755提升至0.876,增幅15.9%,僅使用約19,500個合成數據對;並詳細描述了增益在不同語言和排名上的分布情況。
來源
來源:網頁來源