推理的影子價格:LLM 推理預算最佳分配的經濟視角
研究論文探討大型語言模型(LLM)的推理預算最佳分配問題。論文指出,推論時間縮放是增強 LLM 性能的重要途徑,但實際部署受限於嚴格的計算預算。基於經濟原則,作者將推理預算分配形式化為一個全局約束優化問題。通過使用 shifted-surge 函數建模每個查詢的推理效用,論文推導出基於全局影子價格的最佳分配策略,以在資源稀缺下平衡邊際效用。根據此理論,提出了 CLEAR(Constrained Latent-utility Equilibrium Allocation for Reasoning)方法,該方法執行理性放棄,並從無解查詢重新分配資源到接近出現閾值的可解查詢。廣泛的實驗表明,CLEAR 顯著改善了總標記成本與平均準確率之間的帕累托前沿。在資源稀缺情況下,相比均勻分配,CLEAR 的全局準確率提升可達 3 倍。
來源
來源:網頁來源