研究06/03 01:06

幾何潛在推理縮短大型語言模型生成長度

研究論文指出，大型語言模型在解決複雜問題時，常依賴生成冗長的顯式推理鏈，這導致推理過程昂貴且長度敏感。為應對此挑戰，論文提出幾何潛在推理（GLR），將潛在推理形式化為模型預訓練詞嵌入空間中的幾何路徑近似問題。GLR 使用輕量級過渡頭來預測嵌入空間中的迭代方向更新，並利用文本思維鏈軌跡作為錨點，學習近似離散推理軌跡，同時允許連續偏離精確詞嵌入。在數學推理基準的評估中，使用 Qwen3 模型進行測試，結果顯示幾何潛在推理誘導了顯著更短的生成步驟，無需明確的長度優化目標。通過將早期顯式推理替換為連續潛在步驟，模型往往能以更少的總生成步驟達到正確答案。這些發現表明，連續軌跡可作為緊湊的中間推理狀態，揭示了潛在計算預算、輸出長度和準確性之間的新權衡，為未來大型語言模型的效率優化提供新方向。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Geometric Latent Reasoning Induces Shorter Generations in LLMs