返回事件流

歷史文本預訓練語言模型 TypewriterLM 發布

根據研究論文提出,TypewriterLM 是一個擁有 7.24B 參數的語言模型,專門基於 1913 年前的英文歷史文本進行訓練。為開發此模型,研究團隊構建了 TypewriterCorpus,一個包含 54B 個詞彙的歷史語料庫,並採用了嚴格的數據清洗和洩漏緩解程序。此外,論文介紹了詞彙引導指令調整框架,用於約束回應直接基於歷史源文件。團隊還創建了兩個歷史指令調整數據集:History-LIMA 和 History-SelfInstruct。為評估模型能力和時間一致性,他們推出了 History-Event 基準套件。所有相關資源已公開發布,以支持未來對歷史語言模型的研究。

來源

來源:網頁來源