在大型語言模型中壓力測試欺騙探針:擴展性與穩健性
研究論文提出對大型語言模型中欺騙檢測的線性探針進行系統性壓力測試。探針在乾淨數據上達到近乎完美的檢測率,但在分佈偏移下崩潰。研究在Gemma 3模型家族(1B-27B參數)上測試四種假設:單一線性方向、多維子空間、凸錐體和熵代理。論文探討發現,探針在風格偏移下失效,但通過風格增強訓練可恢復檢測能力,平均AUROC達0.979-0.983。研究拒絕了單一方向假設,確認跨域轉移失敗是幾何性而非層不匹配導致。熵代理假設也被拒絕,欺騙不形成顯著線性子空間,但多維探針可通過分佈式閾下特徵恢復信號。探針的脆弱性反映訓練分佈窄度,而非架構限制。風格增強探針在4B和27B模型上均恢復近乎完美檢測,表明逆擴展模式是訓練分佈偽影,而非 scale-dependent 現象。
來源:Hugging Face / 論文來源