模型原生計算架構:透過電腦架構視角展望未來系統架構
研究論文指出,大型語言模型正經歷從模型技術到系統技術的轉變。當開發者使用 Codex、Claude Code 和 AutoGPT 等代理來編寫程式碼、管理專案和執行多步任務時,反覆出現的工程問題如緩存重用、上下文管理、代理調度和權限控制,越來越類似於經典電腦系統問題。這篇論文發展了這一類比作為願景調查,將電腦架構概念映射到新興的模型原生堆疊,並回顧了 LLM-as-OS、記憶體管理、代理框架等方面的工作。為了填補統一模型的空白,論文提出了智能計算架構模型(ICAM),一個具有明確介面合約和設計公理的六層框架。ICAM 通過雙平面視圖解決了 LLM 更像 CPU 還是作業系統的表面張力:一個關注可計算內容的概率執行平面和一個關注應計算內容的確定性控制平面。此外,論文引入了三個設計定律:用於 KV-cache 重用和推理加速的語義局部性定律、用於有限窗口和注意力衰減下有效工作集的上下文預算定律,以及用於多代理協作中收益遞減的代理加速定律。論文根據已發表的系統級數據驗證了這些定律,並將其與近期代理軟體實踐的證據相聯繫。最後,論文識別了類比失效之處,並概述了模型原生計算的研究路線圖。這是一個概念和調查貢獻,不報告新實驗。
來源
來源:網頁來源