SLAT:提升 CoT 推理效率的段級自適應修剪
根據 arXiv 上發表的研究論文提出,大型推理模型透過強化學習在鏈式思維能力上取得顯著進步,但生成的推理鏈經常出現結構性冗餘,即所謂的「過度思考」,導致高計算開銷而未提升答案正確性。現有緩解策略通常採用令牌統一的長度懲罰,這種方法提供粗糙、段級無關的壓力,可能無意中抑制有用推理。為解決此問題,研究者展示低效集中於高概率但低邊際效用的段,並推導出段次優化在正確性-長度權衡目標下的理論特徵。他們據此提出 SLAT(段級自適應修剪)框架,這是一個基於強化學習的方法,根據該標準選擇性抑制冗餘段。在標準基準上的實驗結果表明,SLAT 建立了更優的準確度-效率 Pareto 前沿,相對於未壓縮基線減少推理長度達 50%,同時保持競爭性準確度。總體而言,論文結果建議,理論基礎的段感知修剪是大型語言模型高效鏈式思維推理的 promising 方向。
來源
來源:網頁來源