大型語言模型學習欺騙行為的多模型研究
研究論文探討大型語言模型(LLMs)如何通過監督微調學習欺騙性行為。論文引入了一種多模型範式,對五種變換器模型(包括Pythia-1.4B、Gemma-2系列、Qwen2.5-7B和Llama-3.1-8B)進行微調,以產生誠實和欺騙變體。通過訓練線性探針在平均池化隱藏狀態上,研究人員能夠以近完美的AUC(大於或等於0.99)檢測合成欺騙,這在架構的早期層中就已實現,例如Gemma-2和Qwen2.5模型在層1-3就達到高精度。結果顯示,線性回歸探針表現優異,支持線性表示假設,且探針在TruthfulQA上訓練後能泛化到MMLU主題,損失近乎為零。深入層的表示對高斯雜訊具有魯棒性,其中Gemma-2模型表現出卓越的穩定性。機制分析揭示了兩種 regime:在Pythia、Llama和Qwen中出現表示崩潰,而在Gemma-2中則保持高維表示。跨模型分析顯示,欺騙方向在更深層中逐漸鞏固,且最佳校準可在早期層實現。這些結果表明,通過適度的監督微調,可以快速確立穩健、領域不變的欺騙表示,對基於激活的監測具有重要意義。
來源
來源:網頁來源