研究06/04 24:48

提示引導多樣化策略優化用於大型語言模型推理

研究論文提出一種名為提示引導多樣化策略優化（HDPO）的新方法，旨在提升大型語言模型（LLM）的推理能力。現有的強化學習與可驗證獎勵（RLVR）框架主要關注結果層面的正確性，缺乏引導模型考慮多樣化解決方案的明確信號。然而，人類問題解決通常涉及評估多種潛在方法並選擇最可靠的方案，這正是當前 RLVR 框架未明確激勵的認知過程。受到此啟發，HDPO 允許模型首先列出所有潛在候選解決方案的概述作為提示，然後選擇最可靠的一個進行進一步推理。HDPO 包括兩個階段：冷啟動結構化推理和提示引導多樣化強化學習，以激勵模型按照『提出-選擇-思考』的軌跡生成多樣化且可靠的解決方案。實驗結果表明，HDPO 有效提升了 LLM 的推理能力，並增強了候選解決方案的多樣性以及 LLM 識別可靠解決方案的能力。

來源

來源：網頁來源

網頁來源Hint-Guided Diversified Policy Optimization for LLM Reasoning