返回事件流

JetBrains 發布 Mellum2:12B MoE 模型,專為軟體工程任務設計

媒體報導指出,JetBrains 近期正式發布了其最新模型 Mellum2,這是一個總參數達 120 億的混合專家模型,其中每個 token 僅激活 25 億參數,旨在提升在多模型 AI 系統中的處理速度與效率。Mellum2 以 Apache 2.0 許可證開源,允許用戶進行商業使用、自託管及微調。該模型專為軟體工程領域優化,覆蓋代碼生成與編輯、除錯、多步推理、工具使用與函數調用、代理式編程以及對話式編程輔助等任務。JetBrains 團隊將其定位為「焦點模型」,即大型 AI 系統中快速且專用的組件,而非替代前沿模型。在架構上,Mellum2 採用 Mixture-of-Experts 設計,擁有 28 層、64 個專家,並應用滑動窗口注意力與多 token 預測頭,支持長達 131,072 個 token 的上下文長度。基準測試顯示,Mellum2 在 EvalPlus 和 BFCL v3 等指標上表現優異,並提供了從基礎預訓練到強化學習調整的完整檢查點系列。媒體報導進一步指出,此模型適用於路由編排、低延時 RAG 管道、複雜工作流中的子代理,以及私有本地部署等多種場景,為開發者提供了高效能且靈活的工具。

來源

來源:媒體報導