ELMO

本文重温了ELMo模型,指出其相比word2vec多了上下文理解,基本单元是两层基于字符卷积的网络,采用双向bi - lstm模型。介绍了其内部状态组合构成新词汇向量表示,阐述了通用词向量表征法及权重作用,还说明了将其词向量应用到一般任务的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近重温了下elmo模型,主要有几点:

  1- 相比于word2vec这些多了上下文的理解。

  2 - 基本单元是一个两层的基于字符卷积的网络.

  3 - 内部状态的组合构成新的词汇向量表示.

  4-elmo采用了双向bi-lstm模型,利用了语言模型,从elmo公式中我们就可以看出, 向左和向右的LSTM是不同的, 也就是说有两个  LSTM单元. 
​ [公式] 是输入的意思. 输入的内容是最初始的词向量. ​ [公式] 是输出内容, 即LSTM在每个位置的 h. h会再用作softmax的输入, 来进行词汇选择权重赋予,最原始的词向量通过字符卷积而来,而LSTM的每一层都有自己不同的代表的意义, 因此,对于不同的任务, 每层参与表征的权重也就不同, 因此, 为了一般化, 该方案设置一个通用词向量表征法, 即 利用每层状态的线性组,其中,s就是softmax-normalized weights , 也就是加和为1的一组权重向量. 这组权重不仅仅代表的是权重, 因为每层LSTM内部状态,也就是 h 的分布是不同的, 这个也可以用作layer normalization.而, ​ [公式] 允许具体的task模型去放缩 ELMo 的大小. 这个地方非常重要, 作者在补充中进行了强调, 在没有这个的情况下, 只采用该模型的最后一层输出作为词向量的时候的效果甚至差于 baseline. 这个重要的原因是, BiLM的内部表征和具体任务的表征的分布是不一样的.

5-elmo的使用方法:

将该词向量加到一般的任务的方法是, 先固定一个权重, 构成一个 [公式] ​ , 然后联结 ​ [公式] 和 最初始词向量(也就是通过字符卷积获得的向量) 为 [​ [公式] ], 然后将这个向量输入到任务的RNN模型中去. 然后在训练中一同训练权重因子.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值