DRIFT框架提出:解耦演練與重要性加權微調,優化多輪LLM互動
研究論文探討了優化大語言模型在多輪互動場景中行為的挑戰。論文指出,目前的方法存在兩難:線上強化學習能有效處理多輪動態,但因需在每次更新時生成完整修正軌跡而成本高昂;離線監督微調雖然效率高,卻容易因資料分布偏移而導致行為崩潰。為此,論文提出DRIFT(Decoupled Rollouts and Importance-Weighted Fine-Tuning)框架,其核心是將KL正則化強化學習目標等效為重要性加權監督學習這一理論洞察付諸實踐。DRIFT透過從固定的參考策略中採樣離線互動軌跡、計算基於回報的重要性權重,並在產生的數據集上透過加權監督微調來優化策略,從而將資料收集(演練)與優化解耦。論文聲稱,實驗表明DRIFT在保持標準監督微調的訓練效率和簡潔性的同時,其性能達到或超越了多輪強化學習的基線方法。論文的程式碼已在GitHub上公開。
來源
來源:Hugging Face / 論文來源