【2015】CWE:字符嵌入和词嵌入的联合学习(Joint Learning of Character and Word Embeddings)


论文链接: Joint Learning of Character and Word Embeddings
来源:IJCAI-15
代码:

摘要

大多数的词嵌入方法都是以词为基本单位,根据词的外部语境来学习词的嵌入,忽略了词的内部结构。然而,在一些语言中,如汉语,一个词通常是由几个汉字组成的,包含了丰富的内部信息。一个词的语义也与它的组成字的意义有关。因此,我们以中文为例,提出了一种字符增强的词嵌入模型。为了解决汉字歧义和非组成词的问题,我们提出了多原型字符嵌入和一种有效的选词方法。我们评估了CWE在词语相关度计算和类比推理方面的有效性。结果表明,CWE优于其他忽略内部字符信息的基准方法。

引言

作为文本表示的基础,词表示的目的是将词表示为一个向量,既可以用来计算词之间的语义关系,也可以作为词的特征提供给机器学习系统。
许多自然语言处理任务通常采用一个one-hot向量表示,即每个词都被表示为一个词汇量向量,只有一个非零条目。由于其简单性,one-hot表示在NLP和IR中被广泛采用,作为BOW (bag-of-word)文档模型的基础[Manning等人,2008]。单一热点表征法最关键的缺陷是,它没有考虑到词语之间的任何语义关联。
分布式词表示(Distributed word representation),也称为词嵌入(word embedding),最早是在[Rumelhart et al., 1986]提出的。词嵌入将一个词的语义编码成一个实值的低维向量。近年来,词嵌入技术取得了重大进展,被广泛应用在自然语言处理任务,
现有的词嵌入模型训练过程计算复杂度较高,不能有效地用于大规模文本语料库。
本文认为汉语是一种典型的语言。在此基础上,提出了一种新的字符和词嵌入的联合学习模型——字符增强词嵌入模型(CWE)。在CWE中,我们学习并保持单词和字符的嵌入在一起。CWE可以很

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值