研究06/04 24:47

預測推論時間縮放增益：基於標記驗證集統計

研究論文探討如何預測最佳-N推論縮放的增益，這是一種從語言模型中抽取N個候選答案並返回獎勵模型排名最高答案的方法，能提升模型準確性，但增益幅度因模型而異。現有預測方法需要端到端運行完整流程，計算成本高昂。論文基於標記驗證集的單次採樣數據，計算廉價統計特徵，並使用ridge回歸和bootstrap-Lasso進行穩定性分析。分析識別出三個核心特徵：提示級別的一致性分佈、標記輔助的首個正確樣本位置以及完成長度變異。基於這些特徵加一個熵附加項的緊湊ridge預測器，與實際增益的Spearman相關性達到0.90。論文建議，在支付完整獎勵模型評分成本前，利用標記驗證集篩選候選配置，以優化模型評估過程。

來源

來源：網頁來源

網頁來源Predicting Inference-Time Scaling Gains from Labeled Validation-Set Output Statistics