論文:長鏈思維訓練數據中的有害延續現象
研究論文提出,廣泛應用於推理型大型語言模型監督式微調(SFT)的長鏈式思維(Long-CoT)訓練數據,即使答案本身正確,其訓練效果也可能因數據結構而有顯著差異。論文探討了一種稱為「答案後延續」的現象:在答案已獲充分支持的數據軌跡中,模型仍會產生額外的推理步驟並保留在監督目標內。為驗證其訓練影響,研究團隊使用僅刪除的編輯器構建保留答案的數據版本並與原始數據進行比較。實驗觀察表明,移除編輯器識別出的答案後延續部分能改善微調結果,這暗示該延續對訓練有害,研究將此經驗現象命名為「有害延續」。此外,研究透過不確定性與隱藏狀態進展分析了被移除的延續部分,發現存在持續的局部不確定性與減弱的終端方向性進展,形成了一種「不確定性-幾何形狀不匹配」。最終,研究實例化了一個稱為「有害延續切分」(HCC)的輕量級邊界近似方法,用以自動識別這類有害延續的邊界。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces