研究06/01 12:12

COFT：用於大型語言模型公平思維鏈推理的反事實符合解碼

研究論文提出 COFT 方法，旨在解決大型語言模型在思維鏈推理中產生偏見的問題。論文指出，現有模型可能在推理過程中放大社會偏見，COFT 作為一種無需重新訓練的解碼技術，通過三個階段運作：首先創建掩碼反事實提示，用中性替換敏感內容；其次融合 logit 分佈以減少屬性驅動偏見；最後使用雙分支校準來認證候選 token 集合，確保公平性。實驗在六個模型和多個偏見基準上進行，結果顯示 COFT 能將標準偏見指標降低 30-55%，中位數為 38%，同時任務準確率和語言質量保持不變。計算開銷相當於額外一次前向傳播，約 11%。這種方法提供了可審核的路徑，使思維鏈生成更安全，且無需輔助分類器或權重存取。

來源

來源：網頁來源

網頁來源COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models