開源06/03 01:35

Llama.cpp b9473 版本發布：KV-cache 最佳化

在 GitHub 平台上，llama.cpp 官方發布了 b9473 版本，此次更新的核心改進是 KV-cache 的最佳化機制。具體而言，透過 SWA (Sliding Window Attention) 檢查點的應用，系統現在只儲存那些未被遮罩的儲存格，從而有效降低記憶體使用量，並加速語言模型的推理過程。發布內容詳盡，涵蓋了廣泛的作業系統和硬體平台，包括適用於 macOS 的 Apple Silicon (arm64) 和 Intel (x64) 版本、iOS 的 XCFramework，以及 Linux 環境下的多種配置，如 Ubuntu 的 x64 和 arm64 架構，支援 CPU、Vulkan、ROCm 和 OpenVINO 等後端。Android 平台同樣提供了 arm64 的 CPU 版本。Windows 用戶則可以下載針對 x64 和 arm64 架構的 CPU 版本，以及基於 CUDA 12、CUDA 13、Vulkan 和 HIP 的圖形處理器加速版本。值得注意的是，部分版本如 KleidiAI 啟用的 macOS ARM64 版本和 SYCL 版本目前處於停用狀態。此次發布不僅優化了核心功能，還擴展了平台相容性，為 AI 開發者和研究人員提供了更靈活且高效的工具選擇。

來源

來源：GitHub Release

GitHub Releaseb9473