返回事件流

参数对齐技术:减轻多语言模型的灾难性遗忘

一篇发表于arXiv的研究论文探讨了大型语言模型在扩展至新语言时面临的「灾难性遗忘」核心挑战。研究论文提出,虽然持续预训练是扩展模型语言能力的实用方法,但直接在目标数据上进行微调会侵蚀模型原有的通用知识。该研究将此遗忘现象与多语言持续预训练中的参数漂移相联系,并为此系统性地提出并比较了五种「层感知参数对齐」策略,包括硬层冻结、软正则化、事后权重恢复以及模型合并。论文在涵盖五个语系、32种训练语言及若干保留语言的基准测试上评估了这些策略,评估维度包括困惑度、阅读理解、物理推理和翻译能力。结果表明,参数对齐策略能大幅减少能力遗忘,同时对语言习得能力的影响极小。具体而言,层冻结和正则化策略在理解类任务上保真度最高,而事后恢复策略在翻译任务上取得最佳增益。这些发现为「家族专家」式持续预训练中的能力获取与遗忘权衡绘制了前沿图谱,并提供了实用的部署指南,建议针对不同下游任务匹配最有效的对齐策略。

來源

來源:網頁來源