返回事件流

UC Berkeley 推出 mKernel 多 GPU 多節點融合核心庫

根據媒體報導,GPU 通信開銷是生產 AI 工作負載中的主要瓶頸,數據顯示通信可佔前向傳播的 43.6% 和端到端訓練時間的 32%,在混合專家模型中更達 47%。來自加州大學柏克萊分校 UCCL 項目的研究人員發布了 mKernel,這是一個持久 CUDA 核心庫,能將節點內 NVLink 通信、節點間 RDMA 和計算融合到單一核心中。傳統的主機驅動通信模型依賴 CPU 協調,在高速 GPU 配置下產生延遲,而 mKernel 通過 GPU 驅動通信解決此問題,實現核心內部的細粒度重疊。它支持多種融合操作,如 AllGather + GEMM 和 Ring Attention,適用於多節點環境。研究團隊在兩個 2 節點 H200 集群上進行評估,並支持 InfiniBand 和 AWS EFA 後端,這項技術有望優化大規模 AI 訓練的通信效率。

來源

來源:媒體報導