2450亿参数!!秒杀GPT-3!! 详解全球最大规模中文预训练模型源1.0

2450亿参数!!秒杀GPT-3!! 详解全球最大规模中文预训练模型源1.0

从Transformer模型开始,预训练模型经历了GPT、BERT到GPT-2、等具备海量参数模型。GPT-3做为当前表现最优的预训练模型,在零样本和少样本学习领域都取得不错的效果,但随着网络规模不断提升,需要TB级别数据集和巨量计算资源,这些资源都极具挑战。

最近也比较关注中文预训练模型相关进展,刚好注意到浪潮人工智能研究院提出了目前世界上参数规模最大的中文预训练模型 源 1.0,非常的震惊,拥有2450亿模型参数,并在多个NLP任务中取得State-of-art的成绩,特别实在零样本和少样本学习领域成绩斐然。刚好详细解析下源1.0背后的核心技术

1. 提出了一种大规模分布式模型训练方法加速巨量预训练模型训练速度。

2. 搭建一套高效的训练数据挖掘流程,持续从海量的互联网挖掘5TB的高质量文本。

3. 提出了一种校准方法和标签扩充的方法,解决预训练数据资label数据分布不均匀的问题,明显提升零样本和少样本领域预训练模型效果。


1. 大规模分布式预训练模型训练

1.1 语言模型原理

语言模型在自然语言处理领域很常用,在给定输入序列x1,x2...xn的条件下,预估输出序列y1,y2...yn中每一个token生成的概率分布,通过自回归的方式生成最有可能的输出序列,公式如下:

当前业界常用的语言模型有两种,即常规的语言模型Language model(LM)以及带前缀的Prefix Language Model(PLM)。LM是最常见的语言模型,在预训练和微调参数过程中,LM在自然语言生成(natural language generation,NLG)任务表现比较好,但涉及到自然语言理解(natural language understanding,PLU)的任务是,效果相对差些。因此,产生了改进版本的PLM,两种语言模型核心差异在于mask attention的机构不同,PLM中对于当前token i,attention可以计算i之前的所有token直接关联关系,如图1所示:

左边是常规的decoder结构的LM,右边是历史可见的PLM语言模型。相比LM,PL

编辑于 2021-12-09 19:27