研究06/01 12:13

大型語言模型學習欺騙行為的多模型研究

研究論文探討大型語言模型（LLMs）如何通過監督微調學習欺騙性行為。論文引入了一種多模型範式，對五種變換器模型（包括Pythia-1.4B、Gemma-2系列、Qwen2.5-7B和Llama-3.1-8B）進行微調，以產生誠實和欺騙變體。通過訓練線性探針在平均池化隱藏狀態上，研究人員能夠以近完美的AUC（大於或等於0.99）檢測合成欺騙，這在架構的早期層中就已實現，例如Gemma-2和Qwen2.5模型在層1-3就達到高精度。結果顯示，線性回歸探針表現優異，支持線性表示假設，且探針在TruthfulQA上訓練後能泛化到MMLU主題，損失近乎為零。深入層的表示對高斯雜訊具有魯棒性，其中Gemma-2模型表現出卓越的穩定性。機制分析揭示了兩種 regime：在Pythia、Llama和Qwen中出現表示崩潰，而在Gemma-2中則保持高維表示。跨模型分析顯示，欺騙方向在更深層中逐漸鞏固，且最佳校準可在早期層實現。這些結果表明，通過適度的監督微調，可以快速確立穩健、領域不變的欺騙表示，對基於激活的監測具有重要意義。

來源

來源：網頁來源

網頁來源When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception