论文分享|【词向量专题】中文词嵌入最新进展

本文分享了近年来关于中文词嵌入的最新研究,探讨了如何利用字符和笔画信息提升词向量的质量。文章介绍了四篇文献,包括利用字符图片特征、联合字、偏旁部首和笔画编码的方法,以及通过ladder structured networks联合学习词及其组件的嵌入。实验结果显示,这些方法在词相似性和词类比任务上取得了一定的改进。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

image_1ckhaklufsv61q2spen4lt1lpq9.png-43.1kB

分布式的词嵌入(word embedding)将一个词表征成一个连续空间中的向量,并且有效地挖掘了词的语义和句法上的信息,从而被作为输入特征广泛得应用于下游的NLP任务(比如:命名实体识别,文本分类,情感分析,问答系统等等)。CBOW,skip-gram 和Glove模型算是最热的最受青睐的方法来进行词嵌入的学习了。后来人们又在这三个模型的基础上发明了各种变体来提高词嵌入的质量。

今天要介绍的是通过增添中文字形结构的信息来提高中文词嵌入质量的几个最新方法。和传统的CBOW,skip-gram 和Glove模型不同的是,后者只考虑了词的共现性,而前者通过中文词语中字、偏旁部首等信息来增加对词义的表征。

共介绍2017年2篇和2018年2篇文献。
公子,前戏没有,直接主菜。


文献一

题目:“Learning Chinese Word Representations From Glyphs Of Characters”
作者:台湾国立大学, Tzu-Ray Su, Hung-Yi Lee
发表时间:2017年8月

step1:预处理数据

首先将语料中的“字”都表示成一张图片,并且调整到60*60大小,如下:

image_1cjnktd5l18rp1hvda9t179m18np9.png-25.5kB

step2: 提取字符符号特征

接着,利用convAE模型来,输入字符图片,输出high level的特征。
convAE模型的结构如下图,左右两部分对称,左边encoder是5个卷积层,kenel,stride等信息可在图中已标明,右边decoder也是5卷积,左右两边相同等级的卷积共享kernel。对这个模型,我们输入字符图片,并且在encoder层最后会输出512维的特征,这组特征就是我们想得到的字符符号特征,用image_1cjnldqc8elttd7hvaiao19so5j.png-0.8kB表示。

WX20180801-103752@2x.png-99kB

step3: 构建模型一

作者在CWE(character-enhanced word embedding)上做了些许手脚,把glyph feature增添到输入层的信息中。

先来看看什么是CWE 模型(如下图):
image_1cjnm7dqe7578na13e16v4oa9s.png-24.9kB
可见除了按照传统的方式输入”词“外,还将词中的每个”字“也作为输入,得到新的词向量为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值