一文读懂GPT-1：生成式预训练如何提升语言理解

为了深入探索大语言模型的发展历程，我们精心挑选了一系列经典论文进行分享，希望能与大家共同学习和理解大语言模型背后的技术。首期，我们将共同探索ChatGPT的起源：GPT-1，跟随论文深入理解其技术细节，见证人工智能新篇章的启幕。

摘要

GPT-1是一种半监督的语言模型，它巧妙地结合了无监督预训练和有监督微调，以优化语言理解任务。其目标是学习一种通用的语言表示，只需微调，就能在各种任务中灵活迁移。GPT-1首先利用大量未标注文本进行预训练，然后针对特定任务进行有监督的微调。它采用了Transformer作为模型架构，这种架构提供了更加结构化的记忆，以便处理文本中的长期依赖关系，从而实现了卓越的迁移性能。在迁移训练过程中，GPT1能够在最小化模型结构更改的同时，有效地进行微调。

GPT-1基本原理

GPT-1模型主要包含两个阶段：
1.利用大量未标注的语料预训练一个语言模型；
2.对预训练好的语言模型进行微改，将其迁移到各种有监督的NLP任务，并对参数进行fine-tuning。

无监督预训练

给定一个无标记的大语料库u，GPT-1通过最大化以下似然函数来训练语言模型：

其中, k 是上下文窗口的大小。

GPT-1使用12层的Transformer解码器作为语言模型，模型结构如下所示：

计算过程如下所示：

其中,U=(u-k,...,u-1)是上下文向量，n 是层数。

有监督微调

在预训练模型之后，我们在有监督的NLP任务上对预训练模型进行微调。假设有一个带有标签的数据集C，其中每个样本由一系列输入x1,...,xm以及一个标签y组成。对于每一个输入，经过预训练后的语言模型后，可以直接选取最后一层Transformer的输出向量h,然后在其后面接一层全连接层，即可得到最后的预测概率：