研究05/31 17:48

UC Berkeley 推出 mKernel 多 GPU 多節點融合核心庫

根據媒體報導，GPU 通信開銷是生產 AI 工作負載中的主要瓶頸，數據顯示通信可佔前向傳播的 43.6% 和端到端訓練時間的 32%，在混合專家模型中更達 47%。來自加州大學柏克萊分校 UCCL 項目的研究人員發布了 mKernel，這是一個持久 CUDA 核心庫，能將節點內 NVLink 通信、節點間 RDMA 和計算融合到單一核心中。傳統的主機驅動通信模型依賴 CPU 協調，在高速 GPU 配置下產生延遲，而 mKernel 通過 GPU 驅動通信解決此問題，實現核心內部的細粒度重疊。它支持多種融合操作，如 AllGather + GEMM 和 Ring Attention，適用於多節點環境。研究團隊在兩個 2 節點 H200 集群上進行評估，並支持 InfiniBand 和 AWS EFA 後端，這項技術有望優化大規模 AI 訓練的通信效率。

來源

來源：媒體報導

媒體報導Meet mKernel: A Multi-GPU, Multi-Node Fused Kernel Library for GPU-Driven Communication