返回事件流

透過一致性訓練減少語言模型的政治操縱

研究論文提出,大型語言模型在多種敏感情境中展現系統性政治偏見,特別是在處理對立政治主題時存在不對稱性,這種現象被稱為隱藏政治偏見。論文識別了七種操作技術類別,並提出兩個量化指標:情緒一致性用於測量對稱的修辭和框架,幫助一致性則評估對稱的深度和參與度。為了減少這兩種偏見,研究引入了政治一致性訓練(PCT),這是一種強化學習訓練方法,包含情緒一致性訓練和幫助一致性訓練兩個互補範式。結果顯示,PCT 能保持模型的整體幫助性,大幅降低隱藏政治偏見,並成功泛化到未參與訓練的基準測試。該工作已在指定網站發佈,供進一步參考。

來源

來源:Hugging Face / 論文來源