研究06/04 01:09

幻覺可從量化LLM的中間層隱藏狀態線性解碼

研究論文提出，探討開源大型語言模型是否在隱藏狀態中編碼線性可分的幻覺信號，並確定最強信號出現的網路深度。研究涵蓋三個7B至8B指令調優模型：Llama-3.1-8B、Mistral-7B和Qwen2.5-7B，均使用4位NF4量化。在四個幻覺基準（TruthfulQA、HaluEval-QA、FEVER和合成數據集）上提取每層隱藏狀態，並比較四種檢測方法：線性和MLP探針、INSIDE EigenScore、自一致性以及注意力熵。結果顯示，線性探針在單一中間層的留出分割上達到0.904至1.000的AUROC，而基於採樣的偵測器在相同協議下不超過0.541 AUROC。幻覺信號近似線性，MLP探針很少超越線性探針超過0.01 AUROC。峰值探針層在自然語言基準中跨模型家族呈現一致區間：Llama和Mistral在13至18層（共32層），Qwen在19至25層（共28層）。此外，第一層注意力熵在知識基礎設置中提供互補信號，在HaluEval-QA上達到0.866至0.941 AUROC，且不增加推論成本。採樣方法的低區分性反映了配對標籤評估與這些方法所存取資訊之間的結構性不匹配。研究已發布代碼和數據，可在單一8GB GPU上完全重現。

來源

來源：網頁來源

網頁來源Hallucination Is Linearly Decodable from Mid-Layer Hidden States in Quantized LLMs