研究06/03 24:10

CSRP框架：基於強化學習的鏈式思考推理用於中文文本糾正

研究論文提出一個名為CSRP的三階段框架，專門用於解決基於大型語言模型的中文語法錯誤糾正系統面臨的挑戰。論文指出，通用模型缺乏專門的語言先驗知識來區分細微語法差異，且監督式微調與最大似然估計無法優化精度指標，導致系統性過度糾正問題。CSRP框架通過持續預訓練整合領域知識、鏈式思考監督式微調實現診斷透明度，以及使用強化學習與效率感知獎勵的群體相對策略優化。實驗結果顯示，在NACGEC基準測試中，CSRP取得了50.99的F0.5分數和57.17的精確度，顯著優於先前最佳結果，同時有效緩解了過度糾正偏差。此外，該方法在中文拼寫錯誤糾正上達到59.61的F1分數，超越GPT-4達5.20點。研究也通過消融實驗證明，強化學習對齊階段貢獻了相對8%的增益，驗證了明確優化編輯效率對高品質語法錯誤糾正的重要性。論文代碼已在GitHub上公開發布。

來源

來源：網頁來源

網頁來源CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards