ARCA:令牌信號退化時的適配器殘差信用分配
研究論文提出,針對語言模型的強化學習,通常會使用基於令牌的信用分配方法,但這些方法在實踐中常用的低秩適應(LoRA)等參數高效微調場景下,可能會出現結構性問題。論文指出,在LoRA限制下,策略被約束在參考模型的低秩鄰域內,常用的內在信用信號(如驚奇度、熵減和策略散度)在進行軌跡內歸一化後,其權重可能趨於退化,要麼接近均勻分布,要麼集中於少數與任務無關的位置。為此,研究團隊提出了一種名為「適配器殘差信用分配」(ARCA)的輕量級替代方案。ARCA 不再依賴輸出分佈的變化,而是直接從適配器自身的隱藏狀態殘差來推導令牌的重要性,具體通過計算適配後隱藏狀態與基礎隱藏狀態之間的歐氏範數差異來實現。這種方法不依賴於學習到的獎勵模型、價值函數或樹搜索結構。在一項基於 Qwen3-1.7B 模型與 GRPO 算法的 MATH 任務實驗中,ARCA 在匹配的推演預算下,展現了預期的非退化中間狀態信用分佈,並與基線方法保持了競爭力。
來源
來源:網頁來源