返回事件流

llama.cpp b9468 發布:新增推理中斷控制端點

GitHub 在 llamacpp 專案中發布了版本 b9468,官方公告表示此次更新主要新增了伺服器端的實時推理中斷功能,通過控制端點實現。這項功能建立在先前的手動推理預算觸發基礎上,添加了 CONTROL 任務,可在生成過程中強制結束思考。使用者可通過 POST /v1/chat/completions/control 傳送請求來控制。此外,WebUI 也進行了改進,新增了推理階段追蹤功能,並重構了相關模組以提高程式碼品質。此次發布還提供了多平台的預編譯二進位檔案,包括 macOS、Linux、Android 和 Windows 等系統,方便使用者直接下載使用。此次更新由多位貢獻者合作完成,包括 Aleksander Grygier。在伺服器方面,控制端點經過優化,從使用插槽 ID 改為使用完成 ID,以避免 TOCTOU 問題,提高了安全性。WebUI 中,控制端點和動作被提取為常量,減少了魔術字串,使控制協議更統一。此外,流式傳輸的完成 ID 現在正確地通過 agentic 流程傳遞,確保了按鈕功能正常運作。此次發布還包含了詳細的文檔和各種平台的下載連結,支持 Vulkan、ROCm、OpenVINO 等多種後端,展現了開源社群的活躍發展。

來源

來源:GitHub Release