新論文:用現成大型模型指導數學推理,無需訓練過程獎勵模型
一項研究論文提出,可以利用現成的通用大型語言模型(LLM)作為過程評分器,以引導小型模型進行數學推理,而無需訓練專門的過程獎勵模型(PRM)。這種名為「塊級引導生成」(Chunk-Level Guided Generation)的方法,讓小型模型在每個推理步驟生成多個固定長度的候選片段,再由大型模型基於其對數概率進行評分與選擇,從而避免錯誤的推理路徑繼續傳播。論文展示了兩種具體的選擇規則:「似然引導選擇」(LGS)選擇大型模型概率最高的片段;「對比引導選擇」(CGS)則減去小型模型的概率,以選擇大型模型更為偏好的片段。研究發現,使用大型模型的似然對不同長度的推理步驟進行評分並不可靠,而固定長度的片段則避免了這一偏差。在GSM8K、MATH等多個數學基準測試中,使用Qwen2.5-32B指導Qwen2.5-1.5B等組合時,CGS方法相比多數投票法最高提升了28個百分點,在某些測試上其性能匹配甚至超越了使用專門訓練的72B參數PRM的引導搜索,且生成的推理過程更短。
來源
來源:Hugging Face / 論文來源