研究06/02 12:08

多弱訊號聚合強化模型：LoRA合併的偏好增量聚合

研究論文探討大型語言模型訓練中，高質量監督數據稀缺的問題。論文指出，先前研究顯示，來自弱-更弱模型對（例如 Qwen3 4B 與 1.7B）的配對偏好數據，雖個別回應質量有限，但可透過相對質量差異提供有效的「弱」監督訊號。為此，論文提出「偏好增量聚合」（PDA）框架，這是首個從每個弱-更弱模型對中推導出偏好增量，將其實例化為透過偏好優化學習的LoRA適配器，並透過LoRA合併來聚合這些增量的框架。為緩解LoRA合併時的方向性干擾，論文進一步引入了「幾何對齊合併」（GAM）方法，這是一種幾何感知的合併技術，能在聚合前對齊適配器子空間，從而更穩健地組合多樣化的增量。在知識推理和代理式搜索基準測試上的評估表明，聚合多個「弱」訊號能將性能提升至超越任何單一訊號的水平，且隨著訊號增加獲得進一步增益。

來源

來源：網頁來源

網頁來源From "Weak" Signals to Strong Models: Preference Delta Aggregation with LoRA Merging