学习总结
文章目录
内容简介:
- 从循环(RNN)到基于注意力的 NLP 模型
- 介绍 Transformer 模型
- Transformer 的好结果
- Transformer 的缺点和变体
一、从 RNN 到基于注意力的 NLP 模型
1.1 基于注意力的RNN模型
2016年时NLP领域常用双向LSTM对句子进行编码(如翻译下面的句子),把输出定义为一个序列。然后用LSTM解码。最后使用注意力以便灵活地访问编码的隐藏状态(即memory)。
以上就是2014年~2017年的RNN模型,2021年的今天,我们可以用不同的模型。
1.2 RNN循环模型的问题
(1)线性交互距离
循环模型的缺点:线性交互距离。
RNN是“从左到右”展开的,对线性局部性进行编码,这也启发我们:邻近的单词会影响彼此的意思。如句子