序列化:将文本进行Tokenization,将其切分成单词或字符,形成Token序列。之后将文本序列转换为索引序列(语料库中的index) ---- sentencepiece (开源的文本Tokenzier工具)
input_tensor:[batch_size,seq_len,hidden_dim]
batch_size:批量大小,每次处理的样本数
seq_len:句子的长度
hidden_dim:每个word映射的embedding长度
序列化:将文本进行Tokenization,将其切分成单词或字符,形成Token序列。之后将文本序列转换为索引序列(语料库中的index) ---- sentencepiece (开源的文本Tokenzier工具)
input_tensor:[batch_size,seq_len,hidden_dim]
batch_size:批量大小,每次处理的样本数
seq_len:句子的长度
hidden_dim:每个word映射的embedding长度