自動解釋標籤的泛化能力研究:跨語言、腳本與措辭的控制實驗
研究論文探討稀疏自編碼器(SAE)特徵標籤的泛化能力,SAE 常用於解釋語言模型,其自動生成的自然語言標籤是理解特徵的主要介面。本研究使用塞爾維亞語的雙字系統——同一語言以拉丁和西里爾兩種腳本書寫——作為控制測試平台,探究標籤是否能在語言和腳本間泛化。研究發現,由相同內容在不同語言、腳本和措辭中激活的 SAE 特徵集有顯著重疊(峰值 Jaccard 相似度 0.57,隨機基線 0.13),表明存在真正的跨語言語義特徵。然而,自動解釋標籤往往跟不上:標籤描述語義內容的特徵在塞爾維亞語中漏掉相同意義的機率比英語內高達四倍,且在塞爾維亞西里爾腳本中比拉丁腳本更常漏掉——兩者是確定性轉寫的。這表明失敗與每種形式在訓練中的表示程度相關。差距隨網路深度增加而擴大,但標籤未顯示其失敗。結果顯示,自動解釋標籤可能反映特徵在良好表示輸入上的行為,而非概念本身。
來源
來源:網頁來源