研究06/03 24:48

基於信心自適應的 SwiGLU 用於專家混合模型

研究論文探討了一個名為 Confidence-Aware SwiGLU (κ-SwiGLU) 的新方法，旨在改進專家混合模型。SwiGLU 作為現代 Transformer MLP 中的標準閘道激活函數，其閘道銳利度在訓練期間通常固定不變。κ-SwiGLU 通過將 SiLU 閘道銳利度係數參數化為路由器 logit 的可學習函數，使每個專家閘道單元能根據 token 級路由信心，在平滑廣泛激活和銳利選擇性激活之間動態插值。論文在 FineWeb-Edu 數據集上進行了評估，應用於 8 到 28 層的 MoE Transformer 模型。結果顯示，κ-SwiGLU 在幾乎不增加模型參數和僅帶來少量計算開銷的情況下，顯著提高了平均 CORE 性能。這表明信心感知的閘道銳利度是改善 MoE MLP 的一個有效機制。相關代碼已在 GitHub 上公開，方便研究人員進一步應用和驗證。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Confidence-Adaptive SwiGLU for Mixture-of-Experts