COFT:用於大型語言模型公平思維鏈推理的反事實符合解碼
研究論文提出 COFT 方法,旨在解決大型語言模型在思維鏈推理中產生偏見的問題。論文指出,現有模型可能在推理過程中放大社會偏見,COFT 作為一種無需重新訓練的解碼技術,通過三個階段運作:首先創建掩碼反事實提示,用中性替換敏感內容;其次融合 logit 分佈以減少屬性驅動偏見;最後使用雙分支校準來認證候選 token 集合,確保公平性。實驗在六個模型和多個偏見基準上進行,結果顯示 COFT 能將標準偏見指標降低 30-55%,中位數為 38%,同時任務準確率和語言質量保持不變。計算開銷相當於額外一次前向傳播,約 11%。這種方法提供了可審核的路徑,使思維鏈生成更安全,且無需輔助分類器或權重存取。
來源
來源:網頁來源