返回事件流

語言模型領域適應與歷史宇宙學的控制實驗

研究論文提出一項探討領域適應如何影響語言模型解釋行為的研究,以歷史宇宙學作為控制實驗設置。實驗分為兩個階段:首先,研究者從零開始訓練一個小型語言模型,使用移除了日心說參考的前哥白尼語料庫,評估是否會出現地球運動或日心說的延續。其次,使用QLoRA技術微調一個較大的預訓練模型在同一語料庫上,以研究適應過程如何修改模型的解釋框架和宇宙學立場。模型輸出透過LLM評估框架進行標註,分別評估宇宙學立場(如地心說、日心說或模糊)以及解釋框架(前現代與現代)。在第一階段的約束設置中,小型模型偶爾生成局部的地球運動延續,但這些在全局上不穩定,不足以支持連貫的宇宙學推理。在第二階段,微調導致解釋框架顯著轉向前現代,而宇宙學立場的分佈在框架內相對穩定。因此,地心說輸出的增加主要來自解釋制度的重新分配,而非立場的直接修改。這些結果表明,領域適應可能主要重塑生成延續的語言框架,立場的變化則其次要出現。

來源

來源:網頁來源