研究06/03 24:06

SDR：用於放射報告生成的設定距離獎勵

研究論文提出一種名為設定距離獎勵（SDR）的新方法，專門用於胸部X光報告生成。傳統強化學習中的獎勵信號，如精確匹配準確度和步驟級過程，在放射報告生成中存在局限性，因為報告內容由無序且正交的發現組成，並非因果推理鏈。為解決此問題，論文採用基於集合的視角：將報告分割為句子，並使用凍結的句子轉換器嵌入，形成無序嵌入集合。研究團隊提出計算生成報告與參考報告嵌入之間的集合到集合距離，作為連續且排列不變的獎勵。實驗在兩個數據集和三個視覺語言模型（包括Qwen3-VL-2B/4B和Gemma3-4B）上進行，使用GRPO進行後訓練，結果顯示在BERTScore、RadGraph F1和CheXbert F1等指標上，相對於監督微調和精確匹配GRPO有顯著提升，平均相對改善分別達6.80%、7.82%和4.45%。此外，相同的集合距離可用於測試時最佳-N選擇：根據候選報告與訓練報告嵌入的距離評分，在訓練模型和三個閉源LLM（如Mistral-Small、Gemini-2.5 Flash-Lite和GPT-4o-mini）上，相對於隨機選擇，BERTScore平均提升16.4%。作為串流訊號，它支援更高效的測試時縮放：在生成中期修剪低評分候選，可減少超過50%的生成標記，同時保持完整最佳-N選擇的發現質量。這些結果確立了設定距離獎勵作為胸部X光報告生成中後訓練和測試時縮放的統一訊號，論文代碼已公開發布。

來源

來源：網頁來源

網頁來源SDR: Set-Distance Rewards for Radiology Report Generation