返回事件流

強化學習引導的自適應取樣用於大型語言模型測試時縮放

研究論文提出,測試時縮放能提升大型語言模型的推理性能,但會帶來顯著的計算成本和延遲。現有的自適應取樣方法通常依賴啟發式規則或分佈假設來部分緩解此問題。本研究將自適應取樣建模為一個馬可夫決策過程,並使用強化學習訓練一個輕量級的取樣控制器。該控制器在每一輪決定停止取樣或獲取額外樣本,以共同權衡答案正確性、延遲和計算成本。方法輕量,僅依賴於最終答案的統計數據,並且可以在CPU上進行訓練和部署。此外,研究進一步展示,該框架可被解釋為帶有明確預算約束的約束優化問題的拉格朗日弛豫。實驗對比強基線如ASC和ESC,顯示本方法在答案正確性、取樣輪數和所需總樣本數之間實現了更好的權衡。

來源:Hugging Face / 論文來源