超越答案:評估大型推理模型中的有害過度思考
研究論文提出,大型推理模型通過生成明確的中間推理軌跡來提升性能,但過長的推理不一定有益。論文探討了當模型達到正確答案後,繼續推理是會改進解決方案還是偏離它。研究引入了一個基於推理充分性的前綴級軌跡評估協議,定義了模型首次生成正確答案所需的最小推理預算。這使得研究能區分冗餘但無害的過度思考和有害的過度思考,後者會破壞已經正確的軌跡。從多模態基準測試開始,研究發現許多被認為需要密集推理的實例實際上需要的推理比預期少。此外,在第一個正確前綴處停止推理,相比標準推理,準確率提高了高達21%,顯示當前模型不僅受限於推理能力,還受限於無法在正確時間停止。常見的效率策略如早期停止能大幅減少冗餘過度思考(高達50%),但未能減輕有害過度思考。錯誤分析顯示,正確性偏差主要由邏輯漂移和視覺重新解釋驅動。最後,研究顯示這些發現推廣到僅語言推理基準,強調有害過度思考是更廣泛的可靠性風險。
來源
來源:網頁來源