開源06/03 24:48

llama.cpp b9470版：Hexagon平台運算優化與清理

GitHub官方發布了llama.cpp的b9470版本，此次更新的核心在於針對Qualcomm Hexagon平台的一系列效能優化與代碼清理。官方公告表示，更新主要涵蓋MUL_MAT、MUL_MAT_ID、FLASH_ATTN以及GDN等關鍵運算操作。具體優化內容包括：為Hexagon模組引入初步的F32浮點數矩陣乘法支援、優化Hexagon RMS-Norm的融合計算、以及修復先前在特定條件下（如運行Qwen 3.5-2B模型時）導致融合RMS-Norm-Mul運算失敗的缺陷。此外，更新也改進了Hexagon Flash Attention的管線化設計，引入通用的管線化與非管線化模式，並在多處使用fastmod與fastdiv以提升計算效率。為了進一步提升效能，此次發布也更新了Hexagon的DCVS（動態時鐘與電壓調整）設定。官方同時在發布頁面提供了適用於macOS（含Apple Silicon與Intel）、Linux（多種CPU與GPU後端）、Android、Windows（CPU、CUDA、Vulkan等）以及openEuler等多個平台的預編譯二進制檔案供下載。

來源

來源：GitHub Release

GitHub Releaseb9470