近期会整理经典的大模型架构和其具体训练、数据过程,从GPT1开始
一、介绍
GPT系列的特点是自监督大规模训练后在具体任务上进行有监督微调,事实证明这种方式可以有效利用大规模的无标签语料以提升模型对于自然语言的理解力,即使其调整参数以记忆足够多知识的模型
结构类似于llama,为多层的decoder-only:
二、训练
2.1 无监督预训练
即,最大化根据之前位置正确的token生成当前位置正确token的对数概率
以下的公式清晰展示了输入在这个模型中的处理流程以及概率输出:
文本被token化后,进过输入的token embedding 矩阵映射后,加上位置编码,接着经过n层decoder块的处理后,softmax转化为词表大小的概率输出
2.2 有监督微调
对于有标签训练,加了一个输出的映射层,这个层负责从transformer的docoder块输出的向量中映射到标签的空间,有监督的损失与无监督类似:
在有监督训练阶段,加入