
大模型
文章平均质量分 93
专栏主要分享大模型经典架构以及实战技术。
斯曦巍峨
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
经典大语言模型解读(3):参数量更大、泛化性能更强的生成式模型GPT-2
GPT-2通过将参数数量提升一个数量级,采用字节对编码(BPE)技术进行文本编码,并在更广阔的数据集上进行预训练,同时在训练过程中将上下文长度增加了一倍。这些改进显著增强了GPT-2相对于其前身GPT-1的文本生成能力。以上便是本文的全部内容,若是觉得不错可以支持一下博主,你们的支持是博主更新的不竭动力。若是有任何问题也敬请批评指正。原创 2024-09-22 18:28:57 · 1343 阅读 · 0 评论 -
经典大语言模型解读(2):生成式预训练的先锋GPT-1
现实世界中包含了大量的文本语料数据,然而,绝大多数语料都是无标签的。为了充分利用这些无标签语料库,GPT1.0提出直接利用这些未标记的语料来进行生成式预训练,然后对每个特定任务进行判别式微调(在标注数据上),从而显著提升在这些任务上的性能。:文本蕴含,即给定一个前提文本(premise),根据这个前提文本去推断假说文本(hypothesis)与前提文本之间的关系,关系包括蕴含和矛盾两种。蕴含关系指能从前提文本推断出假说文本,而矛盾关系则指前提文本与假锁文本相矛盾。原创 2024-09-01 21:23:14 · 1125 阅读 · 1 评论 -
经典大语言模型解读(1):BERT——基于双向Transformer的预训练语言模型
BERT(BEncoderRTransformer)是Google于2019年提出的预训练语言模型。与寻常的Transformer架构不同,该模型由双向Transformer编码器组成,双向编码使得BERT能够从左到右和从右到左编码上下文。BERT通过无标签语料数据,在精心设计的预训练任务**掩码语言模型(Masked LM)和下一句预测(Next Sentence Prediction, NSP)**的指导下进行预训练,所得到的模型具备出色的泛化能力。原创 2024-08-12 17:02:06 · 1177 阅读 · 0 评论 -
大模型背后的“英雄”——Transformer
如今大火的大模型背后许多都离不开Transformer,本文将带你深入了解Transformer的架构。原创 2024-04-18 11:17:24 · 1829 阅读 · 0 评论