基於信心自適應的 SwiGLU 用於專家混合模型
研究論文探討了一個名為 Confidence-Aware SwiGLU (κ-SwiGLU) 的新方法,旨在改進專家混合模型。SwiGLU 作為現代 Transformer MLP 中的標準閘道激活函數,其閘道銳利度在訓練期間通常固定不變。κ-SwiGLU 通過將 SiLU 閘道銳利度係數參數化為路由器 logit 的可學習函數,使每個專家閘道單元能根據 token 級路由信心,在平滑廣泛激活和銳利選擇性激活之間動態插值。論文在 FineWeb-Edu 數據集上進行了評估,應用於 8 到 28 層的 MoE Transformer 模型。結果顯示,κ-SwiGLU 在幾乎不增加模型參數和僅帶來少量計算開銷的情況下,顯著提高了平均 CORE 性能。這表明信心感知的閘道銳利度是改善 MoE MLP 的一個有效機制。相關代碼已在 GitHub 上公開,方便研究人員進一步應用和驗證。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Confidence-Adaptive SwiGLU for Mixture-of-Experts