vllm v0.22.0 版本發布:DeepSeek V4 成熟度提升與性能優化
GitHub 發布了 vllm v0.22.0 版本,此次更新由 230 位貢獻者提交了 459 個 commits。官方公告表示,DeepSeek V4 模型在本週期獲得重大強化,包括模型重組為專用套件、新增 NVFP4 融合 MoE 支持、CUDA 圖形優化以及 MTP 推測解碼,並附帶大量融合內核與 ROCm 平衡修正。Model Runner V2 向預設值邁進,新增了 Qwen3 密集模型的預設選擇、睡眠模式權重重載、配置更新與共享 KV 緩存層等功能,當存在 KV 連接器時會自動回退到 MRv1。實驗性 Rust 前端整合也已落地,支持數據並行服務的 DP Supervisor。性能方面,批次不變推理獲得 Cutlass FP8 支持,端到端延遲改善達 28.9%,同時支持編譯模式與 NVFP4 Cutlass 線性路徑。多層 KV 緩存卸載框架擴展了卸載能力,超越 CPU 記憶體,支持 Python 文件系統次級層級、DSv4 與 Mooncake 磁碟卸載。此次版本還支持多種新架構和模型,如 MiniCPM-V 4.6、InternS2 Preview、OpenVLA 等,並改進了工具呼叫解析器、ViT CUDA 圖形支持以及 AMD ROCm、CPU 與 Intel XPU 硬體的效能。
來源
來源:GitHub Release
- GitHub Releasev0.22.0