測量、定位與消融大型語言模型中的對齊簽名
研究論文提出中,探討了對齊語言模型是否在後訓練後展現出可識別的 AI 風格,以及這些風格特徵是否有內部簽名。透過比較人類文本、基礎模型生成和對齊模型生成,發現對齊模型的生成內容較遠離人類語料庫風格,更容易被 AI 偵測器識別。為此,研究引入 PASTA(後訓練對齊簽名定向消融)方法,這是一種無需訓練的方法,可以估計後訓練對齊簽名並在解碼期間消融相應方向。實驗涵蓋 11 個對齊模型和 6 個 AI 偵測器,結果顯示 PASTA 能有效降低大多數對齊模型的偵測率,且效果跨偵測器轉移良好。定性分析表明,PASTA 生成的內容保持相關性和連貫性,同時展現出更大的風格變化。這些結果表明,後訓練的 AI 風格效應可以通過激活消融進行測量、定位和因果測試。
來源
來源:網頁來源