多弱訊號聚合強化模型:LoRA合併的偏好增量聚合
研究論文探討大型語言模型訓練中,高質量監督數據稀缺的問題。論文指出,先前研究顯示,來自弱-更弱模型對(例如 Qwen3 4B 與 1.7B)的配對偏好數據,雖個別回應質量有限,但可透過相對質量差異提供有效的「弱」監督訊號。為此,論文提出「偏好增量聚合」(PDA)框架,這是首個從每個弱-更弱模型對中推導出偏好增量,將其實例化為透過偏好優化學習的LoRA適配器,並透過LoRA合併來聚合這些增量的框架。為緩解LoRA合併時的方向性干擾,論文進一步引入了「幾何對齊合併」(GAM)方法,這是一種幾何感知的合併技術,能在聚合前對齊適配器子空間,從而更穩健地組合多樣化的增量。在知識推理和代理式搜索基準測試上的評估表明,聚合多個「弱」訊號能將性能提升至超越任何單一訊號的水平,且隨著訊號增加獲得進一步增益。
來源
來源:網頁來源