返回事件流

時序排程用於強化學習與可驗證獎勵

研究論文提出,在大型語言模型的後訓練階段,強化學習與可驗證獎勵已成為一項核心技術。現有的策略優化方法通常將所有采樣token在一個全局廣播的標量獎勵下驅動,但忽略了軌跡中異質策略行為的差異性。先前的工作透過信用分配來解決此問題,包括token級優勢重新加權和選擇性token優化,然而分配標準在整個訓練過程中基本停滯,限制了策略的彈性發展。本文引入時序維度,主張學習信號的排程與分配同等重要。透過在RLVR優化過程中排程信用分配標準,優先處理具有特定策略行為的token,並逐漸過渡到一般優化,能實現更穩定高效的學習動態。進一步地,研究顯示簡單的軌跡百分位數提供了一個自然的視角來區分策略行為,並與時序排程結合有效運作。分析揭示標準優化在同時適應異質行為時會犧牲策略熵,而時序排程則產生更健康的策略演變動態。實驗結果顯示,在數學推理和通用推理基準測試中均獲得一致性提升,表明時序排程是一個有潛力的優化方向。

來源

來源:Hugging Face / 論文來源