Pytorch BERT笔记

rush_mj

于 2024-02-14 00:12:42 发布

阅读量424

点赞数 9

CC 4.0 BY-SA版权

文章标签： pytorch bert 笔记

本文链接：https://blog.csdn.net/rush_mj/article/details/136110756

本文展示了如何在使用HuggingFaceTransformers库中的BertTokenizer时，关闭自动的Subword分词功能，以处理特定的自然语言文本，如Ilovenaturallanguageprocessing.，并将其转换为tokenIDs.

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关闭 subword 分词

from transformers import BertTokenizer

# 初始化分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 输入文本
text = "I love natural language processing."

# 手动分词，关闭 subword 分词
tokens = ['[CLS]'] + tokenizer.basic_tokenizer.tokenize(text) + ['[SEP]']

# 转换为 token IDs
token_ids = tokenizer.convert_tokens_to_ids(tokens)

# 输出编码后的 token IDs
print(token_ids)