預測推論時間縮放增益:基於標記驗證集統計
研究論文探討如何預測最佳-N推論縮放的增益,這是一種從語言模型中抽取N個候選答案並返回獎勵模型排名最高答案的方法,能提升模型準確性,但增益幅度因模型而異。現有預測方法需要端到端運行完整流程,計算成本高昂。論文基於標記驗證集的單次採樣數據,計算廉價統計特徵,並使用ridge回歸和bootstrap-Lasso進行穩定性分析。分析識別出三個核心特徵:提示級別的一致性分佈、標記輔助的首個正確樣本位置以及完成長度變異。基於這些特徵加一個熵附加項的緊湊ridge預測器,與實際增益的Spearman相關性達到0.90。論文建議,在支付完整獎勵模型評分成本前,利用標記驗證集篩選候選配置,以優化模型評估過程。
來源
來源:網頁來源