中文NLP的第二步：分词转词表ID，基于 PaddleHub 实现（学习心得）

AItrust

于 2020-05-10 14:56:36 发布

阅读量2.9k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： NLP PaddlePaddle 文章标签：自然语言处理人工智能 paddlepaddle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42067550/article/details/106035833

上一步我们做了分词：
中文NLP的第一步：分词，基于 PaddleHub 实现，绝对小白友好（学习心得）

第二步是把分词结果，对照词表转化成 ID

词表是什么呢？

首先我们要知道，中文字符是没办法直接计算的，更不要说进一步的操作了，所以我们需要的是词嵌入，获得 word embedding，详见：
为什么NLP中需要词嵌入 word embeddings（学习心得）

而词语要转化为 word embedding 之前，先要根据词表转化为对应的序号 ID，这样转化程序才知道你转化的是哪个词

所以这里面是 2 重对应关系：

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。