SDR:用於放射報告生成的設定距離獎勵
研究論文提出一種名為設定距離獎勵(SDR)的新方法,專門用於胸部X光報告生成。傳統強化學習中的獎勵信號,如精確匹配準確度和步驟級過程,在放射報告生成中存在局限性,因為報告內容由無序且正交的發現組成,並非因果推理鏈。為解決此問題,論文採用基於集合的視角:將報告分割為句子,並使用凍結的句子轉換器嵌入,形成無序嵌入集合。研究團隊提出計算生成報告與參考報告嵌入之間的集合到集合距離,作為連續且排列不變的獎勵。實驗在兩個數據集和三個視覺語言模型(包括Qwen3-VL-2B/4B和Gemma3-4B)上進行,使用GRPO進行後訓練,結果顯示在BERTScore、RadGraph F1和CheXbert F1等指標上,相對於監督微調和精確匹配GRPO有顯著提升,平均相對改善分別達6.80%、7.82%和4.45%。此外,相同的集合距離可用於測試時最佳-N選擇:根據候選報告與訓練報告嵌入的距離評分,在訓練模型和三個閉源LLM(如Mistral-Small、Gemini-2.5 Flash-Lite和GPT-4o-mini)上,相對於隨機選擇,BERTScore平均提升16.4%。作為串流訊號,它支援更高效的測試時縮放:在生成中期修剪低評分候選,可減少超過50%的生成標記,同時保持完整最佳-N選擇的發現質量。這些結果確立了設定距離獎勵作為胸部X光報告生成中後訓練和測試時縮放的統一訊號,論文代碼已公開發布。
來源
來源:網頁來源