幾何潛在推理縮短大型語言模型生成長度
研究論文指出,大型語言模型在解決複雜問題時,常依賴生成冗長的顯式推理鏈,這導致推理過程昂貴且長度敏感。為應對此挑戰,論文提出幾何潛在推理(GLR),將潛在推理形式化為模型預訓練詞嵌入空間中的幾何路徑近似問題。GLR 使用輕量級過渡頭來預測嵌入空間中的迭代方向更新,並利用文本思維鏈軌跡作為錨點,學習近似離散推理軌跡,同時允許連續偏離精確詞嵌入。在數學推理基準的評估中,使用 Qwen3 模型進行測試,結果顯示幾何潛在推理誘導了顯著更短的生成步驟,無需明確的長度優化目標。通過將早期顯式推理替換為連續潛在步驟,模型往往能以更少的總生成步驟達到正確答案。這些發現表明,連續軌跡可作為緊湊的中間推理狀態,揭示了潛在計算預算、輸出長度和準確性之間的新權衡,為未來大型語言模型的效率優化提供新方向。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Geometric Latent Reasoning Induces Shorter Generations in LLMs