研究06/03 24:11

参数对齐技术：减轻多语言模型的灾难性遗忘

一篇发表于arXiv的研究论文探讨了大型语言模型在扩展至新语言时面临的「灾难性遗忘」核心挑战。研究论文提出，虽然持续预训练是扩展模型语言能力的实用方法，但直接在目标数据上进行微调会侵蚀模型原有的通用知识。该研究将此遗忘现象与多语言持续预训练中的参数漂移相联系，并为此系统性地提出并比较了五种「层感知参数对齐」策略，包括硬层冻结、软正则化、事后权重恢复以及模型合并。论文在涵盖五个语系、32种训练语言及若干保留语言的基准测试上评估了这些策略，评估维度包括困惑度、阅读理解、物理推理和翻译能力。结果表明，参数对齐策略能大幅减少能力遗忘，同时对语言习得能力的影响极小。具体而言，层冻结和正则化策略在理解类任务上保真度最高，而事后恢复策略在翻译任务上取得最佳增益。这些发现为「家族专家」式持续预训练中的能力获取与遗忘权衡绘制了前沿图谱，并提供了实用的部署指南，建议针对不同下游任务匹配最有效的对齐策略。

來源

來源：網頁來源

網頁來源Parameter Alignment Mitigates Catastrophic Forgetting in Multilingual Expert Language Models