研究06/01 12:07

UniScale：統一推理縮放框架優化LLM部署

研究論文探討大型語言模型部署中的推理優化問題。在現實應用中，平衡推理質量與計算成本是一大挑戰。現有方法通常分開處理模型路由和測試時縮放：模型路由透過在不同規模模型間切換來應對請求複雜度，而測試時縮放則在固定模型內調整推理計算以控制質量。然而，這種解耦方式存在限制，例如模型路由僅能實現粗粒度的性能調整，而測試時縮放常遇到模型容量上限，導致計算增加時效益遞減。此外，將兩者分開處理限制了在動態推理環境中的適應性。為此，論文提出統一推理縮放（UIS）概念，將模型路由和測試時縮放整合到同一優化框架中。基於UIS，開發了UniScale線上框架，將自適應推理縮放建模為上下文多臂老虎機問題，並使用LinUCB算法學習最優推理策略。框架還融入效率感知學習和成本建模技術，以確保在高維動作空間中的穩定與可擴展優化。實驗評估表明，UniScale能有效利用UIS空間的協同效應，在多種動態推理場景中實現更細粒度、更一致的質量與成本權衡，為大型語言模型的高效部署提供新方向。

來源

來源：網頁來源

網頁來源UniScale: Adaptive Unified Inference Scaling via Online Joint Optimization of Model Routing and Test-Time Scaling