论文分享|【词向量专题】中文词嵌入最新进展

最新推荐文章于 2025-07-03 11:15:18 发布

原创

最新推荐文章于 2025-07-03 11:15:18 发布 · 2.9k 阅读

7 ·

CC 4.0 BY-SA版权

本文分享了近年来关于中文词嵌入的最新研究，探讨了如何利用字符和笔画信息提升词向量的质量。文章介绍了四篇文献，包括利用字符图片特征、联合字、偏旁部首和笔画编码的方法，以及通过ladder structured networks联合学习词及其组件的嵌入。实验结果显示，这些方法在词相似性和词类比任务上取得了一定的改进。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

image_1ckhaklufsv61q2spen4lt1lpq9.png-43.1kB

分布式的词嵌入(word embedding)将一个词表征成一个连续空间中的向量，并且有效地挖掘了词的语义和句法上的信息，从而被作为输入特征广泛得应用于下游的NLP任务（比如：命名实体识别，文本分类，情感分析，问答系统等等）。CBOW，skip-gram 和Glove模型算是最热的最受青睐的方法来进行词嵌入的学习了。后来人们又在这三个模型的基础上发明了各种变体来提高词嵌入的质量。

今天要介绍的是通过增添中文字形结构的信息来提高中文词嵌入质量的几个最新方法。和传统的CBOW，skip-gram 和Glove模型不同的是，后者只考虑了词的共现性，而前者通过中文词语中字、偏旁部首等信息来增加对词义的表征。

共介绍2017年2篇和2018年2篇文献。
公子，前戏没有，直接主菜。

文献一

题目：“Learning Chinese Word Representations From Glyphs Of Characters”
作者：台湾国立大学， Tzu-Ray Su， Hung-Yi Lee
发表时间：2017年8月

step1：预处理数据

首先将语料中的“字”都表示成一张图片，并且调整到60*60大小，如下：

image_1cjnktd5l18rp1hvda9t179m18np9.png-25.5kB

step2: 提取字符符号特征

接着，利用convAE模型来，输入字符图片，输出high level的特征。
convAE模型的结构如下图，左右两部分对称，左边encoder是5个卷积层，kenel,stride等信息可在图中已标明，右边decoder也是5卷积，左右两边相同等级的卷积共享kernel。对这个模型，我们输入字符图片，并且在encoder层最后会输出512维的特征，这组特征就是我们想得到的字符符号特征，用 image_1cjnldqc8elttd7hvaiao19so5j.png-0.8kB 表示。