研究06/01 12:11

通用或特定嵌入哪個更好？非英語臨床編碼檢索實證研究

研究論文探討，當前句子嵌入模型主要針對英語語料開發與評估，應用於其他語言的臨床檢索時，特別是ICD-10-CM或CIE-10代碼檢索，召回率會下降，且常被整體基準掩蓋。為了解決此問題，本研究提出利用大型生成式語言模型作為數據工廠，生成合成數據以訓練模型。研究團隊構建了一個兩階段檢索器架構，包括雙編碼器和跨編碼器重排器，基於一個西班牙語生物醫學編碼器（PlanTL-GOB-ES/bsc-bio-ehr-es）進行微調，並使用Gemini生成的合成數據對，覆蓋英語、西班牙語、加泰羅尼亞語、意大利語、葡萄牙語和法語。實驗評估對比了BioBERT-ST和未微調的西班牙語編碼器。結果顯示，僅雙編碼器在平均倒數排名（MRR）上達到0.876，超越BioBERT-ST的0.866，在R@3和R@5指標上也分別為0.650和0.804，優於基準。加入跨編碼器重排器後，整體R@5提升至0.822，並在四種語言（西班牙語、加泰羅尼亞語、法語、葡萄牙語）上均有顯著增益，僅英語略有回歸。臨床應用上，這一權衡是可接受的，例如葡萄牙語的R@5達到0.829，相較BioBERT-ST的0.714有大幅提升。本研究的貢獻包括提供了一個開放的配方，用於從大型語言模型生成數據來構建領域特定的醫療檢索器；量化了學習增益，從MRR 0.755提升至0.876，增幅15.9%，僅使用約19,500個合成數據對；並詳細描述了增益在不同語言和排名上的分布情況。

來源

來源：網頁來源

網頁來源Generalistic or Specific Embeddings, Which is Better? An Empirical Study on Search for Clinical Coding in Non-English Languages