研究06/04 24:47

歷史文本預訓練語言模型 TypewriterLM 發布

根據研究論文提出，TypewriterLM 是一個擁有 7.24B 參數的語言模型，專門基於 1913 年前的英文歷史文本進行訓練。為開發此模型，研究團隊構建了 TypewriterCorpus，一個包含 54B 個詞彙的歷史語料庫，並採用了嚴格的數據清洗和洩漏緩解程序。此外，論文介紹了詞彙引導指令調整框架，用於約束回應直接基於歷史源文件。團隊還創建了兩個歷史指令調整數據集：History-LIMA 和 History-SelfInstruct。為評估模型能力和時間一致性，他們推出了 History-Event 基準套件。所有相關資源已公開發布，以支持未來對歷史語言模型的研究。

來源

來源：網頁來源

網頁來源Pretraining Language Models on Historical Text