研究05/31 17:53

透過一致性訓練減少語言模型的政治操縱

研究論文提出，大型語言模型在多種敏感情境中展現系統性政治偏見，特別是在處理對立政治主題時存在不對稱性，這種現象被稱為隱藏政治偏見。論文識別了七種操作技術類別，並提出兩個量化指標：情緒一致性用於測量對稱的修辭和框架，幫助一致性則評估對稱的深度和參與度。為了減少這兩種偏見，研究引入了政治一致性訓練（PCT），這是一種強化學習訓練方法，包含情緒一致性訓練和幫助一致性訓練兩個互補範式。結果顯示，PCT 能保持模型的整體幫助性，大幅降低隱藏政治偏見，並成功泛化到未參與訓練的基準測試。該工作已在指定網站發佈，供進一步參考。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Reducing Political Manipulation with Consistency Training