評估 ChatGPT 生物醫學關聯生成與驗證的協議
研究論文提出一個系統性的評估協議,用於評估 ChatGPT 在生物醫學領域生成疾病相關關聯的能力。該協議涵蓋關聯的生成、驗證和可靠性評估。首先,關聯的生成基於疾病中心,利用 ChatGPT 的自然語言處理能力。其次,驗證步驟使用生物醫學本體來確認生物實體的準確性,並通過文獻搜索來驗證關聯的科學有效性。為了評估模型的生成可靠性,協議引入了一個自一致性策略,通過跨多個 ChatGPT 模型進行多數投票來檢測一致性,從而評估生成內容的穩定性。針對本體精確匹配的局限性,論文展示了一個具體使用案例,採用檢索增強生成(RAG)技術,由開源大型語言模型(LLMs)驅動的工作流進行語義驗證。這種方法允許 LLMs 對其他 LLMs 生成的內容進行真實性檢查,從而識別並揭露可能產生的幻覺,提升 AI 在醫療應用中的可信度。整體而言,該協議提供了一個全面的框架,用於系統化地評估和改進 ChatGPT 在生物醫學任務中的表現。
來源
來源:網頁來源