Llama.cpp b9473 版本發布:KV-cache 最佳化
在 GitHub 平台上,llama.cpp 官方發布了 b9473 版本,此次更新的核心改進是 KV-cache 的最佳化機制。具體而言,透過 SWA (Sliding Window Attention) 檢查點的應用,系統現在只儲存那些未被遮罩的儲存格,從而有效降低記憶體使用量,並加速語言模型的推理過程。發布內容詳盡,涵蓋了廣泛的作業系統和硬體平台,包括適用於 macOS 的 Apple Silicon (arm64) 和 Intel (x64) 版本、iOS 的 XCFramework,以及 Linux 環境下的多種配置,如 Ubuntu 的 x64 和 arm64 架構,支援 CPU、Vulkan、ROCm 和 OpenVINO 等後端。Android 平台同樣提供了 arm64 的 CPU 版本。Windows 用戶則可以下載針對 x64 和 arm64 架構的 CPU 版本,以及基於 CUDA 12、CUDA 13、Vulkan 和 HIP 的圖形處理器加速版本。值得注意的是,部分版本如 KleidiAI 啟用的 macOS ARM64 版本和 SYCL 版本目前處於停用狀態。此次發布不僅優化了核心功能,還擴展了平台相容性,為 AI 開發者和研究人員提供了更靈活且高效的工具選擇。
來源
來源:GitHub Release
- GitHub Releaseb9473