返回事件流

線性探針在語言模型隱藏狀態中偵測任務格式而非推理模式

研究論文提出,線性探針在大型語言模型的隱藏狀態中,常被用來主張模型學習了不同推理類型的獨特表示。然而,這項研究透過在 Qwen3-14B 模型上進行測試,使用三個涵蓋演繹、歸納和溯因推理的基準數據集,包括 LogiQA 2.0、ARC-Challenge 和 αNLI。在模型的第 32 層,線性探針達到了 100% 的交叉驗證準確率,且幾何結構分離良好。但論文指出,這種分離完全是由任務格式的混淆因素所驅動,例如來源身份、選項數量和回應長度。當去除這些格式因素後,準確率降至隨機水平。追蹤-錨點相似性分析顯示,不同任務間的推理大部分是共享的,而因果引導實驗則未發現幾何結構與推理模式之間的功能性連結。因此,研究結論認為,高探針準確率反映的是任務格式,而非計算結構,這為機械可解釋性研究中的格式去混淆提供了動力,促使未來研究常規性地處理格式混淆問題。

來源

來源:網頁來源