NLP-文本张量表示
三种常用文本张量one-hot编码又称独热编码,将每个词表示成具有n个元素的向量,这个词向量中只有一个元素是1,其他元素都是0from sklearn.externals import joblibfrom keras.preprocessing.text import Tokenizer# 例如:vocab = {'苹果', '菠萝'}t = Tokenizer(num_words=None, char_level=False)t.fit_on_texts(vocab)for
原创
2021-06-03 10:30:36 ·
315 阅读 ·
0 评论