Bert面试总结

最新推荐文章于 2025-04-29 14:31:59 发布

真心乖宝宝

最新推荐文章于 2025-04-29 14:31:59 发布

阅读量977

点赞数 1

CC 4.0 BY-SA版权

分类专栏： NLP知识点

本文链接：https://blog.csdn.net/weixin_45069761/article/details/107852087

本文总结了BERT的预训练任务，包括Masked Language Model (MLM)和Next Sentence Prediction (NSP)，并详细解释了Transformer中的Padding Mask和Sequence Mask。BERT的输入由字向量、文本向量和位置向量组成，输出则根据任务需求，如分类任务中使用[CLS]符号的向量表示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

bert两个预训练任务

Task1：Masked Language Model

MLM是指在训练的时候随即从输入预料上mask掉一些单词，然后通过的上下文预测该单词，在BERT的实验中，15%的Token会被随机Mask掉。在训练模型时，一个句子会被多次喂到模型中用于参数学习，但是Google并没有在每次都mask掉这些单词，而是在确定要Mask掉的单词之后，80%的时候会直接替换为[Mask]，10%的时候将其替换为其它任意单词，10%的时候会保留原始Token

这么做的原因是：如果句子中的某个Token100%都会被mask掉，那么在fine-tuning的时候模型就会有一些没有见过的单词。加入随机Token的原因是因为Transformer要保持对每个输入token的分布式表征，否则模型就会记住这个[mask]是token ‘hairy’。至于单词带来的负面影响，因为一个单词被随机替换掉的概率只有15%*10% =1.5%，这个负面影响其实是可以忽略不计的。

Task2: Next Sentence Prediction

NSP的任务是判断句子B是否是句子A的下文。如果是的话输出’IsNext’，否则输出’NotNext’。训练数据的生成方式是从平行语料中随机抽取的连续两句话，其中50%保留抽取的两句话，它们符合IsNext关系，另外50%的第二句话是随机从预料中提取的，它们的关系是NotNext的。这个关系保存在[CLS]符号中。