NLP 中常用的预训练模型综述

一、什么是预训练模型?

预训练模型(Pre-trained Model)是指在大规模语料(如维基百科、新闻语料、社交网络数据)上预先训练好的通用语言模型。它们捕捉了语言的语义、结构和上下文信息,可以迁移到下游任务,如分类、问答、翻译等。

二、预训练模型的两阶段流程

阶段说明
预训练阶段使用无监督/自监督学习,在海量文本上学习语言规律
微调阶段在小数据集上做具体任务(如情感分析)

常见预训练任务:

  • Masked Language Modeling(BERT类)

  • Next Sentence Prediction

  • Causal Language Modeling(GPT类)

三、主流模型分类与代表

1. BERT 系列(双向编码器)

模型发布机构特点
BERTGoogle双向 Transformer,掀起预训练热潮
RoBERTaFacebook改进 BERT 训练策略,效果更强
ALBERTGoogle参数共享 + 分解嵌入,提升效率
Chinese-BERT哈工大针对中文优化,包含拼音、部首等多信息

适用任务:文本分类、问答、句子对匹配、实体识别等

2. GPT 系列(单向生成器)

模型发布机构特点
GPTOpenAI单向语言建模,擅长文本生成
GPT-2OpenAI更强的生成能力,引发文本生成革命
GPT-3 / GPT-4OpenAI万能大模型,支持少样本/零样本学习

适用任务:文本生成、对话、摘要、代码生成等

3. T5 / mT5 系列(文本到文本)

模型发布机构特点
T5Google所有任务转为文本生成(Text-to-Text)
mT5Google多语言版本,适用于跨语言任务

适用任务:翻译、摘要、分类、QA、多任务学习等

4. DeBERTa 系列(增强表示)

模型发布机构特点
DeBERTaMicrosoft相对位置编码 + 解耦注意力,提升性能
DeBERTa-v3Microsoft更强表达力,广泛应用于工业级 NLP 系统

适用任务:分类、NLI、QA、实体识别等

5. ERNIE 系列(知识增强)

模型发布机构特点
ERNIE百度融合结构知识(如词义、实体)
ERNIE 4.0百度多模态 + 中文表现优异

适用任务:中文语义理解、知识问答、跨模态任务等

6. XLNet(自回归结合自编码)

模型发布机构特点
XLNetGoogle结合 BERT 和 GPT 优势,支持顺序建模

四、模型对比概览表

模型模型类型适用语言参数量特点
BERT编码器多语言110M+双向表示,稳健可靠
RoBERTa编码器英语125M+更强的训练技巧
ALBERT编码器英语更小更快更轻量
GPT-2解码器英语117M+优秀生成能力
GPT-3/4解码器多语言175B+/1T+万能模型,零样本学习
T5编码器+解码器英语220M+统一任务格式
DeBERTa编码器多语言180M+表达力强,适合工业场景
mT5编码器+解码器多语言数亿~十亿跨语言任务首选
ERNIE编码器中文数亿中文知识注入,提升语义理解

五、如何选择适合自己的预训练模型?

场景/任务推荐模型
中文分类、问答Chinese-BERT、RoFormer、ERNIE
英文文本生成GPT-2、GPT-3、T5
多语言翻译mT5、XLM-R
精度要求高DeBERTa-v3、RoBERTa-large
轻量级部署ALBERT、TinyBERT、DistilBERT
少样本训练T5、GPT-3、DeBERTa

六、示例:使用 BERT 微调文本分类

from transformers import BertTokenizer, BertForSequenceClassification
from transformers import Trainer, TrainingArguments

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertForSequenceClassification.from_pretrained("bert-base-uncased")

inputs = tokenizer("This is a test sentence.", return_tensors="pt")
outputs = model(**inputs)
print(outputs.logits)

七、总结建议

建议方向实践建议
初学者选择 BERT、RoBERTa 等结构清晰、资料丰富的模型
中文任务使用 Chinese-BERT、ERNIE、RoFormer 等
多语言处理选择 mBERT、mT5、XLM-R
推理和逻辑任务使用 DeBERTa、RoBERTa、T5
文本生成使用 GPT 系列、T5
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

00&00

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值