研究06/04 24:46

線性探針在語言模型隱藏狀態中偵測任務格式而非推理模式

研究論文提出，線性探針在大型語言模型的隱藏狀態中，常被用來主張模型學習了不同推理類型的獨特表示。然而，這項研究透過在 Qwen3-14B 模型上進行測試，使用三個涵蓋演繹、歸納和溯因推理的基準數據集，包括 LogiQA 2.0、ARC-Challenge 和 αNLI。在模型的第 32 層，線性探針達到了 100% 的交叉驗證準確率，且幾何結構分離良好。但論文指出，這種分離完全是由任務格式的混淆因素所驅動，例如來源身份、選項數量和回應長度。當去除這些格式因素後，準確率降至隨機水平。追蹤-錨點相似性分析顯示，不同任務間的推理大部分是共享的，而因果引導實驗則未發現幾何結構與推理模式之間的功能性連結。因此，研究結論認為，高探針準確率反映的是任務格式，而非計算結構，這為機械可解釋性研究中的格式去混淆提供了動力，促使未來研究常規性地處理格式混淆問題。

來源

來源：網頁來源

網頁來源Linear Probes Detect Task Format, Not Reasoning Mode in Language Model Hidden States