開源05/31 17:50

vllm v0.22.0 版本發布：DeepSeek V4 成熟度提升與性能優化

GitHub 發布了 vllm v0.22.0 版本，此次更新由 230 位貢獻者提交了 459 個 commits。官方公告表示，DeepSeek V4 模型在本週期獲得重大強化，包括模型重組為專用套件、新增 NVFP4 融合 MoE 支持、CUDA 圖形優化以及 MTP 推測解碼，並附帶大量融合內核與 ROCm 平衡修正。Model Runner V2 向預設值邁進，新增了 Qwen3 密集模型的預設選擇、睡眠模式權重重載、配置更新與共享 KV 緩存層等功能，當存在 KV 連接器時會自動回退到 MRv1。實驗性 Rust 前端整合也已落地，支持數據並行服務的 DP Supervisor。性能方面，批次不變推理獲得 Cutlass FP8 支持，端到端延遲改善達 28.9%，同時支持編譯模式與 NVFP4 Cutlass 線性路徑。多層 KV 緩存卸載框架擴展了卸載能力，超越 CPU 記憶體，支持 Python 文件系統次級層級、DSv4 與 Mooncake 磁碟卸載。此次版本還支持多種新架構和模型，如 MiniCPM-V 4.6、InternS2 Preview、OpenVLA 等，並改進了工具呼叫解析器、ViT CUDA 圖形支持以及 AMD ROCm、CPU 與 Intel XPU 硬體的效能。

來源

來源：GitHub Release

GitHub Releasev0.22.0