- 背景:
在使用别人已经训练好的word2vec模型时,如Chinese Word Vectors 中文词向量,
Embedding/Chinese-Word-Vectorsgithub.com
常常这种模型很大(上述链接中的Skip-Gram with Negative Sampling (SGNS)中,Mixed-large 综合行、Word + Ngram列下载解压后的文件为3.43G),将他们加载到内存中再求词向量显然会很费时,求model.most_similar时同样需要搜索整个内存空间.
在stackoverflow中,关于训练好的的word2vec模型加速加载、使用回答链接如下:
How to speed up Gensim Word2vec model load time?stackoverflow.com
本文尝试解决的问题是:
如何使用已训练的word2vec模型,快速求有限词汇表的词向量。
2. 方法:
构建有限词汇表,转存模型中的词向量为csv或其他格式,使用时载入为字典实现快速读取。
3. 代码:
import