关于NLP模型GPT-2的学习笔记(一)

本文是关于NLP模型GPT-2的学习笔记,介绍了GPT模型的基本原理和架构,包括编码器和解码器模块。GPT-2作为自回归模型,通过每次生成一个单词来形成文本,与BERT等模型相比,它侧重于单词间的关联性进行文本生成。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于NLP模型GPT-2的学习笔记(一)


前言

近期GPT-3的热度在NLP领域很高,因此对于这个模型有了尝试的想法,目前GPT-3的模型和资源还不太多,因此先用GPT-2尝试一下训练模型和文本生成。


一、GPT模型是什么?

在实践之前,对于GPT模型的基本原理做了一定的了解,下面进行一些简单的介绍。

GPT模型是OPEN-AI构建的自然语言处理模型,其在文本生成上往往能产生超出预料的效果,与BERT和Transformer XL等模型带起了NLP领域的新热潮。

二、NLP模型简介

自然语言处理模型的主要任务就是对于自然语言(区别于机器语言)进行一系列处理达到使用者的目的,与机器语言相对比,由于自然语言并没有特别严格的格式,因此从句式结构去分析和生成文本存在相当大的难度。因此目前的文本生成都是依靠词与词之间的联系来实现的,就如同输入法的提示一样,输入一个词之后生成下一个词,这个过程就是目前文本生成模型的基本流程,通过产生与上一个词关联性最大的一列词并从中挑选一个作为输出,如此循环生成一篇文章。

三、GPT模型架构

目前主要的自然语言处理模型架构都是由编码器(encoder)和解码器(decoder)构成的,BERT由编码器构成,GPT由译码器构成,这与transformer模型相似。GPT-2 就像传统的语言模型一样,一次只输出一个单词(token)。

这种模型之所以效果好是因为在每个新单词产生后,该单词就被添加在之前生成的单词序列后面,这个序列会成为模型下一步的新输入。这种机制叫做自回归(auto-regression),GPT-2,以及一些诸如 Transforme

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值