研究06/03 24:45

新論文：用現成大型模型指導數學推理，無需訓練過程獎勵模型

一項研究論文提出，可以利用現成的通用大型語言模型（LLM）作為過程評分器，以引導小型模型進行數學推理，而無需訓練專門的過程獎勵模型（PRM）。這種名為「塊級引導生成」（Chunk-Level Guided Generation）的方法，讓小型模型在每個推理步驟生成多個固定長度的候選片段，再由大型模型基於其對數概率進行評分與選擇，從而避免錯誤的推理路徑繼續傳播。論文展示了兩種具體的選擇規則：「似然引導選擇」（LGS）選擇大型模型概率最高的片段；「對比引導選擇」（CGS）則減去小型模型的概率，以選擇大型模型更為偏好的片段。研究發現，使用大型模型的似然對不同長度的推理步驟進行評分並不可靠，而固定長度的片段則避免了這一偏差。在GSM8K、MATH等多個數學基準測試中，使用Qwen2.5-32B指導Qwen2.5-1.5B等組合時，CGS方法相比多數投票法最高提升了28個百分點，在某些測試上其性能匹配甚至超越了使用專門訓練的72B參數PRM的引導搜索，且生成的推理過程更短。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning