LLM的发展简述


1. NLP的发展简史

信息理论的创立:20世纪50年代,Claude Shannon 奠定了信息理论的基础,引入了熵和冗余等概念,对 NLP 和计算语言学产生了深远影响。

形式语法的发展:1957年,Noam Chomsky 提出语法和语法规则的理论,为自然语言的形式化分析提供了结构,对早期计算语言学的发展产生了重要影响。

早期计算模型:隐马尔可夫模型(HMM)和 n-gram 模型是早期理解自然语言的计算模型,HMM在语音识别等领域发挥了关键作用,而 n-gram 模型则在语言建模方面成为长期标准。其中,HMM 相关可以查阅:
《NLP深入学习(五):HMM 详解及字母识别/天气预测用法》

神经网络模型的兴起:90年代初,循环神经网络(RNN)和长短期记忆(LSTM)网络被开发,它们能够学习序列数据中的模式,对语言建模至关重要。

词嵌入技术:随后,LSA 和 Word2Vec 等技术允许对单词进行向量化表示,词嵌入捕捉了单词间的语义关系,显著提升了 NLP 任务的性能。其中,词嵌入相关可以查阅:
《NLP 词嵌入向量即word embedding原理详解》

注意力机制与Transformer:2014年,Bahdanau 等人引入注意力机制,改进了机器翻译。2017年,Vaswani 等人提出 Transformer 架构,完全基于注意力机制,提高了训练效率和性能。其中,Transformer 相关可以查阅:
《NLP深入学习:大模型背后的Transformer模型究竟是什么?(一)》
《NLP深入学习:大模型背后的Transformer模型究竟是什么?(二)》

BERT及其衍生模型:2018年,Devlin等人提出的 BERT 引入了双向转换器模型,改变了 NLP 领域。随后出现了RoBERTa、ALBERT 和 T5 等模型,它们针对特定任务进行了优化,提高了效率和性能。其中,BERT 相关可以查阅:
《NLP深入学习:结合源码详解 BERT 模型(一)》
《NLP深入学习:结合源码详解 BERT 模型(二)》
《NLP深入学习:结合源码详解 BERT 模型(三)》

GPT模型的发展:从2018年的 GPT-1 到2020年的 GPT-3,这些模型通过在大型文本语料库上的预训练,然后在特定任务上微调,不断刷新 NLP 应用的性能标准。其中,GPT 相关可以查阅:
《详解GPT-1到GPT-3的论文亮点以及实验结论》
《详解GPT-4论文《GPT-4 Technical Report》》

2. LLM 的进展

下表是 LLM 近些年来的进展总结:

模型开发者架构参数量训练数据应用发布时间价值配置
BERTGoogleTransformer (Encoder)340 million (large)Wikipedia, BooksCorpusSentiment analysis, Q&A, named entity recognitionOct-18HighGPU (e.g., NVIDIA V100), 16GB RAM, TPU
GPT-2OpenAITransformer1.5 billionDiverse internet textText generation, Q&A, translation, summarizationFeb-19MediumGPU (e.g., NVIDIA V100), 16GB RAM
XLNetGoogle/CMUTransformer (Autoregressive)340 million (large)BooksCorpus, Wikipedia, Giga5Text generation, Q&A, sentiment analysisJun-19MediumGPU (e.g., NVIDIA V100), 16GB RAM
RoBERTaFacebookTransformer (Encoder)355 million (large)Diverse internet textSentiment analysis, Q&A, named entity recognitionJul-19HighGPU (e.g., NVIDIA V100), 16GB RAM
DistilBERTHugging FaceTransformer (Encoder)66 millionWikipedia, BooksCorpusSentiment analysis, Q&A, named entity recognitionOct-19HighGPU (e.g., NVIDIA T4), 8GB RAM
T5GoogleTransformer (Encoder-Decoder)11 billion (large)Colossal Clean Crawled Corpus (C4)Text generation, translation, summarization, Q&AOct-19HighGPU (e.g., NVIDIA V100), 16GB RAM, TPU
ALBERTGoogleTransformer (Encoder)223 million (xxlarge)Wikipedia, BooksCorpusSentiment analysis, Q&A, named entity recognitionDec-19MediumGPU (e.g., NVIDIA V100), 16GB RAM
CTRLSalesforceTransformer1.6 billionDiverse internet textControlled text generationSep-19MediumGPU (e.g., NVIDIA V100), 16GB RAM
GPT-3OpenAITransformer175 billionDiverse internet textText generation, Q&A, translation, summarizationJun-20HighMulti-GPU setup (e.g., 8x NVIDIA V100), 96GB RAM
ELECTRAGoogleTransformer (Encoder)335 million (large)Wikipedia, BooksCorpusText classification, Q&A, named entity recognitionMar-20MediumGPU (e.g., NVIDIA V100), 16GB RAM
ERNIEBaiduTransformer10 billion (version 3)Diverse Chinese textText generation, Q&A, summarization (focused on Chinese)Mar-20HighGPU (e.g., NVIDIA V100), 16GB RAM
Megatron-LMNVIDIATransformer8.3 billionDiverse internet textText generation, Q&A, summarizationOct-19HighMulti-GPU setup (e.g., 8x NVIDIA V100), 96GB RAM
BlenderBotFacebookTransformer (Encoder-Decoder)9.4 billionConversational datasetsConversational agents, dialogue systemsApr-20HighGPU (e.g., NVIDIA V100), 16GB RAM
Turing-NLGMicrosoftTransformer17 billionDiverse internet textText generation, Q&A, translation, summarizationFeb-20HighMulti-GPU setup (e.g., 8x NVIDIA V100), 96GB RAM
Megatron-Turing NLGMicrosoft/NVIDIATransformer530 billionDiverse internet textText generation, Q&A, translation, summarizationOct-20HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM
GPT-4OpenAITransformer~1.7 trillion (estimate)Diverse internet textText generation, Q&A, translation, summarizationMar-23HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM
Dolly 2.0DatabricksTransformer12 billionDatabricks-generated dataText generation, Q&A, translation, summarizationApr-23HighGPU (e.g., NVIDIA A100), 40GB RAM
LLaMAMetaTransformer65 billion (LLaMA 2)Diverse internet textText generation, Q&A, translation, summarizationJul-23HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM
PaLMGoogleTransformer540 billionDiverse internet textText generation, Q&A, translation, summarizationApr-22HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM
ClaudeAnthropicTransformerUndisclosedDiverse internet textText generation, Q&A, translation, summarizationMar-23HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM
ChinchillaDeepMindTransformer70 billionDiverse internet textText generation, Q&A, translation, summarizationMar-22HighGPU (e.g., NVIDIA A100), 40GB RAM
BloomBigScienceTransformer176 billionDiverse internet textText generation, Q&A, translation, summarizationJul-22HighMulti-GPU setup (e.g., 8x NVIDIA A100), 320GB RAM

3. 参考

https://dzone.com/articles/llms-progression-and-path-forward


欢迎关注本人,我是喜欢搞事的程序猿; 一起进步,一起学习;

欢迎关注知乎/CSDN:SmallerFL

也欢迎关注我的wx公众号(精选高质量文章):一个比特定乾坤

请添加图片描述

### 关于LLM模型的学习方法与资料 #### 一、多模态LLM的特点及其应用场景 多模态LLM是一种结合了文本与其他形式数据(如图像、视频、音频等)的大型语言模型。这种类型的模型通过接受多种类型的数据训练,能够找到不同模态间的关系并完成单一模态无法实现的任务,例如图片描述、音乐解读和视频理解等[^1]。 #### 二、大模型的基础理论与技术发展 对于希望深入研究LLM的人来说,了解其背景和发展历程至关重要。相关内容涵盖了人工智能简述GPT系列模型的发展史以及模型工程的具体实践等内容[^2]。这不仅帮助初学者构建完整的知识体系,还提供了实际操作中的指导思路。 #### 三、预训练的重要性及其实现方式 在进入具体学习之前,掌握预训练的概念和技术细节是非常必要的。预训练是指利用大量未标注的数据来使模型获得语言统计规律及相关常识的过程。这一阶段产生的基座模型具有广泛的适用性和强大的泛化能力[^3]。 #### 四、扩展认知框架的新需求 随着技术进步,现代LLM开发者还需要熟悉诸如波束搜索解码(Beam Search Decoding)这样的概率算法, 知识蒸馏(Knowledge Distillation), 和基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)[^4]等方面的知识。这些都是超越传统编码技能之外的重要组成部分。 #### 推荐资源列表 为了更好地理解和运用上述概念,可以参考以下几类优质教程或文档: - **官方文档**: 各种主流框架如PyTorch,Hugging Face Transformers库都有详尽说明。 - **在线课程平台**: Coursera,Udacity提供由顶尖大学教授讲授的相关专项课程。 - **社区分享项目**: GitHub上有许多关于如何调整(LLaMA Factory)现有大规模模型以适应特定用途的例子。 ```python import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("gpt2") model = AutoModelForCausalLM.from_pretrained("gpt2") input_text = "Once upon a time" inputs = tokenizer(input_text, return_tensors="pt").to('cuda') outputs = model.generate(**inputs,max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 以上代码片段展示了如何加载预先训练好的GPT-2模型并通过它生成一段连续的文字序列。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SmallerFL

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值