返回事件流

llama.cpp b9470版:Hexagon平台運算優化與清理

GitHub官方發布了llama.cpp的b9470版本,此次更新的核心在於針對Qualcomm Hexagon平台的一系列效能優化與代碼清理。官方公告表示,更新主要涵蓋MUL_MAT、MUL_MAT_ID、FLASH_ATTN以及GDN等關鍵運算操作。具體優化內容包括:為Hexagon模組引入初步的F32浮點數矩陣乘法支援、優化Hexagon RMS-Norm的融合計算、以及修復先前在特定條件下(如運行Qwen 3.5-2B模型時)導致融合RMS-Norm-Mul運算失敗的缺陷。此外,更新也改進了Hexagon Flash Attention的管線化設計,引入通用的管線化與非管線化模式,並在多處使用fastmod與fastdiv以提升計算效率。為了進一步提升效能,此次發布也更新了Hexagon的DCVS(動態時鐘與電壓調整)設定。官方同時在發布頁面提供了適用於macOS(含Apple Silicon與Intel)、Linux(多種CPU與GPU後端)、Android、Windows(CPU、CUDA、Vulkan等)以及openEuler等多個平台的預編譯二進制檔案供下載。

來源

來源:GitHub Release