分布式的词嵌入(word embedding)将一个词表征成一个连续空间中的向量,并且有效地挖掘了词的语义和句法上的信息,从而被作为输入特征广泛得应用于下游的NLP任务(比如:命名实体识别,文本分类,情感分析,问答系统等等)。CBOW,skip-gram 和Glove模型算是最热的最受青睐的方法来进行词嵌入的学习了。后来人们又在这三个模型的基础上发明了各种变体来提高词嵌入的质量。
今天要介绍的是通过增添中文字形结构的信息来提高中文词嵌入质量的几个最新方法。和传统的CBOW,skip-gram 和Glove模型不同的是,后者只考虑了词的共现性,而前者通过中文词语中字、偏旁部首等信息来增加对词义的表征。
共介绍2017年2篇和2018年2篇文献。
公子,前戏没有,直接主菜。
文献一
题目:“Learning Chinese Word Representations From Glyphs Of Characters”
作者:台湾国立大学, Tzu-Ray Su, Hung-Yi Lee
发表时间:2017年8月
step1:预处理数据
首先将语料中的“字”都表示成一张图片,并且调整到60*60大小,如下:
step2: 提取字符符号特征
接着,利用convAE模型来,输入字符图片,输出high level的特征。
convAE模型的结构如下图,左右两部分对称,左边encoder是5个卷积层,kenel,stride等信息可在图中已标明,右边decoder也是5卷积,左右两边相同等级的卷积共享kernel。对这个模型,我们输入字符图片,并且在encoder层最后会输出512维的特征,这组特征就是我们想得到的字符符号特征,用表示。
step3: 构建模型一
作者在CWE(character-enhanced word embedding)上做了些许手脚,把glyph feature增添到输入层的信息中。
先来看看什么是CWE 模型(如下图):
可见除了按照传统的方式输入”词“外,还将词中的每个”字“也作为输入,得到新的词向量为: