提示引導多樣化策略優化用於大型語言模型推理
研究論文提出一種名為提示引導多樣化策略優化(HDPO)的新方法,旨在提升大型語言模型(LLM)的推理能力。現有的強化學習與可驗證獎勵(RLVR)框架主要關注結果層面的正確性,缺乏引導模型考慮多樣化解決方案的明確信號。然而,人類問題解決通常涉及評估多種潛在方法並選擇最可靠的方案,這正是當前 RLVR 框架未明確激勵的認知過程。受到此啟發,HDPO 允許模型首先列出所有潛在候選解決方案的概述作為提示,然後選擇最可靠的一個進行進一步推理。HDPO 包括兩個階段:冷啟動結構化推理和提示引導多樣化強化學習,以激勵模型按照『提出-選擇-思考』的軌跡生成多樣化且可靠的解決方案。實驗結果表明,HDPO 有效提升了 LLM 的推理能力,並增強了候選解決方案的多樣性以及 LLM 識別可靠解決方案的能力。
來源
來源:網頁來源