[GPT-2]论文解读：Language Models are Unsupervised Multitask Learners

Bigcrab__

已于 2024-03-06 21:56:49 修改

阅读量2.4k

点赞数 16

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： gpt 语言模型人工智能

于 2024-02-17 15:52:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72947390/article/details/136138011

文章目录

论文：Language Models are Unsupervised Multitask Learners
作者：Alec Radford, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, I. Sutskever
时间：2019

介绍

GPT-2 是一个有15亿参数的模型，GPT-2的想法是转向一个通用的系统，不需要进行数据集的标注就可以执行许多的任务；

因为数据集的创建是很难的，我们很难继续将数据集的创建和目标的设计扩大到可能需要用现有的技术推动我们前进的程度。这促使我们去探索执行多任务学习的额外设置。

当前性能最好的语言模型系统是通过预训练模型和微调完成的，预训练主要是自注意力模块去识别字符串的语意，而微调主要是通过语意去得出不同的结果；这样一来，我们在执行不同的任务时，只需要替换掉微调的那部分结构就可以；

而GPT-2证实了语言模型能够在不进行任何参数和结构修改的情况下，拥有执行下游任务的能力，这种能力获取的主要方式是强化语言模型的 zero-shot

zero-shot learning 零样本学习

零样本学习也叫ZSL，通俗来讲就是说在训练集中并没有出现的y能够在测试集中识别出来；当然，如果不做任何处理我们是无法识别的，我们需要没有出现的y的信息来帮助我们识别y；通过上面的图我们可以知道，horse和donkey可以得出horselike，tiger和hyena可以得出stripe，penguin和panda 可以得出 black and white，这里我们可以通过zebra的描述信息可以得出horselike，stripe，black and white 的动物是斑马来训练模型，这样我们可以在测试集的时候识别出斑马；

这里有两篇比较详细的介绍：

零次学习（Zero-Shot Learning）入门 (zhihu.com)
零次学习（Zero-Shot Learning） - 知乎 (zhihu.com)

方法

首先介绍一下语言模型：

$p(x)=p(s_1,s_2,\dots,s_n)=\prod_{i=1}^{n}p(s_n|s_1,\dots,s_{n-1})$
其中 $x$ 是句子， $s_1,s_2,\dots,s_n$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。