返回事件流

UniScale:統一推理縮放框架優化LLM部署

研究論文探討大型語言模型部署中的推理優化問題。在現實應用中,平衡推理質量與計算成本是一大挑戰。現有方法通常分開處理模型路由和測試時縮放:模型路由透過在不同規模模型間切換來應對請求複雜度,而測試時縮放則在固定模型內調整推理計算以控制質量。然而,這種解耦方式存在限制,例如模型路由僅能實現粗粒度的性能調整,而測試時縮放常遇到模型容量上限,導致計算增加時效益遞減。此外,將兩者分開處理限制了在動態推理環境中的適應性。為此,論文提出統一推理縮放(UIS)概念,將模型路由和測試時縮放整合到同一優化框架中。基於UIS,開發了UniScale線上框架,將自適應推理縮放建模為上下文多臂老虎機問題,並使用LinUCB算法學習最優推理策略。框架還融入效率感知學習和成本建模技術,以確保在高維動作空間中的穩定與可擴展優化。實驗評估表明,UniScale能有效利用UIS空間的協同效應,在多種動態推理場景中實現更細粒度、更一致的質量與成本權衡,為大型語言模型的高效部署提供新方向。

來源

來源:網頁來源