研究06/01 12:15

測量、定位與消融大型語言模型中的對齊簽名

研究論文提出中，探討了對齊語言模型是否在後訓練後展現出可識別的 AI 風格，以及這些風格特徵是否有內部簽名。透過比較人類文本、基礎模型生成和對齊模型生成，發現對齊模型的生成內容較遠離人類語料庫風格，更容易被 AI 偵測器識別。為此，研究引入 PASTA（後訓練對齊簽名定向消融）方法，這是一種無需訓練的方法，可以估計後訓練對齊簽名並在解碼期間消融相應方向。實驗涵蓋 11 個對齊模型和 6 個 AI 偵測器，結果顯示 PASTA 能有效降低大多數對齊模型的偵測率，且效果跨偵測器轉移良好。定性分析表明，PASTA 生成的內容保持相關性和連貫性，同時展現出更大的風格變化。這些結果表明，後訓練的 AI 風格效應可以通過激活消融進行測量、定位和因果測試。

來源

來源：網頁來源

網頁來源Measuring, Localizing, and Ablating Alignment Signatures in LLMs