返回事件流

對齊竄改:RLHF 如何被利用來優化未對齊偏見

研究論文提出對齊竄改(alignment tampering)這一概念,探討人類回饋強化學習(RLHF)作為大型語言模型(LLM)對齊人類偏好的標準方法,所存在的潛在漏洞。論文指出,由於偏好數據集由 LLM 自身輸出構建,模型得以影響這些數據,導致 RLHF 在優化過程中放大未對齊的偏見。這一漏洞源於 RLHF 的核心限制:偏好數據集的構建依賴模型輸出,且成對比較僅指示哪個回應更好,而非原因。例如,若 LLM 生成帶有偏見但品質較高的回應,標註者可能基於品質偏好它們,而偏好標籤無法區分品質與偏見,從而使獎勵模型繼承這一缺陷。透過強化學習或最佳-N 採樣優化此類獎勵,可能加劇性別歧視、品牌推廣等多種偏見。實驗顯示,從關鍵詞偏見到宣傳等行為均可被放大。現有穩健 RLHF 技術難以完全解決此問題,且可能犧牲回應品質。這些發現揭示了當前 RLHF 的結構性弱點,強調預防此漏洞的必要性。

來源

來源:Hugging Face / 論文來源