返回事件流

語言模型預訓練中的Grokking現象研究

研究論文提出一個新框架,用於探索大型語言模型在預訓練階段出現的類似「grokking」現象。Grokking指的是神經網路在完美適應訓練數據後,才在很長時間後實現泛化。在監督學習中已有研究,但LLM預訓練涉及下一個標記預測,數據重複有限且無明確的訓練/驗證分割。為此,作者設計了一個基於暴露的框架,利用BLiMP最小對來觀察延遲語法泛化。每個最小對包含一個關鍵短語,捕捉語法對比和相關上下文。通過將例子分配到代理訓練或驗證分割,研究人員在五種語法現象中都發現了延遲泛化。進一步分析預訓練檢查點表明,泛化後,語法概念向量在預測語法可接受性方面變得更準確,並佔據更高維的子空間。同時,注意力機制顯示從關鍵標記到上下文標記的注意力集中在少數注意力頭上。這項工作有助於深入理解語言模型的學習動態和泛化行為。

來源

來源:網頁來源