大模型的特点和工作流程_大模型的sfd能力-CSDN博客

本文链接：https://blog.csdn.net/software444/article/details/146778508

1、大模型是什么？

在2021年，斯坦福大学的研究员团队发表了一篇论文，提出了Foundational Models（基础模型，即大模型）的概念。简单来说，它是一类具有大量参数（通常在十亿以上），能在极为广泛的数据上进行训练，并适用于多种任务和应用的预训练深度学习模型。
在2022年11月，美国OpenAI公司发布了ChatGPT——一种先进的人工智能语言模型，专为对话交互而设计，具有强大的自然语言理解和生成能力，可以完成撰写论文、邮件、脚本、文案、翻译、代码等任务。ChatGPT的发布标志着AI大模型在语言理解与生成能力上的重大突破，对全球AI产业产生了深远影响，正式开启了人工智能大模型应用的新篇章。
在这里插入图片描述

2. 大模型的特点

2.1、大模型的特点

目前基础模型（大模型）主要有以下四个特点：

2.1.1、规模和参数量大

大模型通过其庞大的规模（拥有从数亿到数千亿级别的参数数量）来捕获复杂的数据模式，使得它们能够理解和生成极其丰富的信息。

2.1.2、适应性和灵活性强

模型具有很强的适应性和灵活性，能够通过微调（fine-tune）或少样本学习高效地迁移到各种下游任务，有很强的跨域能力。

2.1.3、广泛数据集的预训练

大模型使用大量多样化的数据进行预训练，以学习广泛的知识表示，能够掌握语言、图像等数据的通用特征。

2.1.4、计算资源需求大

巨大的模型规模带来了高昂的计算和资源需求，包括但不限于数据存储、训练时间、能量消耗和硬件设施。

2.2 、大模型的训练

你可能会好奇大模型是如何通过训练得到的，我们可以看下边这张图：
大模型的训练整体上可分为三个阶段：预训练、SFT（监督微调）以及RLHF（基于人类反馈的强化学习）。
在这里插入图片描述

2.2.1、预训练（Pre-training）：

预训练的过程类似于从婴儿成长为中学生的阶段，在这个阶段我们会学习各种各样的知识，我们的语言习惯、知识体系等重要部分都会形成；对于大模型来说，在这个阶段它会学习各种不同种类的语料，学习到语言的统计规律和一般知识。但是大模型在这个阶段只是学会了补全句子，却没有学会怎么样去领会人类的意图，假设我们向预训练的模型提问：“埃菲尔铁塔在哪个国家？”模型有可能不会回答“法国”，而是根据它看到过的语料进行输出：“东方明珠在哪个城市？”这显然不是一个好的答案，因此我们需要让它能够去遵循人类的指示进行回答，这个步骤就是SFT（监督微调）。

   人类成长的过程实质上是不断预训练的过程，这与机器的预训练过程略有不同。

2.2.2、监督微调（SFT，Supervised Fine Tuning）：

SFT的过程类似于从中学生成长为大学生的阶段，在这个阶段我们会学习到专业知识，比如金融、法律等领域，我们的头脑会更专注于特定领域。对于大模型来说，在这个阶段它可以学习各种人类的对话语料，甚至是非常专业的垂直领域知识，在监督微调过程之后，它可以按照人类的意图去回答专业领域的问题。这时候我们向经过SFT的模型提问：“埃菲尔铁塔在哪个国家？”模型大概率会回答“法国”，而不是去补全后边的句子。这时候的模型已经可以按照人类的意图去完成基本的对话功能了，但是模型的回答有时候可能并不符合人类的偏好，它可能会输出一些涉黄、涉政、涉暴或者种族歧视等言论，这时候我们就需要对模型进行RLHF（基于人类反馈的强化学习）。

2.2.3、基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human Feedback）：

RLHF的过程类似于从大学生步入职场的阶段，在这个阶段我们会开始进行工作，但是我们的工作可能会受到领导和客户的表扬，也有可能会受到批评，我们会根据反馈调整自己的工作方法，争取在职场获得更多的正面反馈。对于大模型来说，在这个阶段它会针对同一问题进行多次回答，人类会对这些回答打分，大模型会在此阶段学习到如何输出分数最高的回答，使得回答更符合人类的偏好。

3、大模型是如何工作的

大模型的工作流程可以分为两部分，第一部分是分词化与词表映射，第二部分为生成文本。

3.1 、分词化（Tokenization）与词表映射

分词化（Tokenization）是自然语言处理（NLP）中的重要概念，它是将段落和句子分割成更小的分词（token）的过程。举一个简单的例子，以下是一个英文句子：
I want to study ACA.
为了让机器理解这个句子，对字符串执行分词化，将其分解为独立的单元。使用分词化，我们会得到这样的结果:
[‘I’ ,‘want’ ,‘to’ ,‘study’ ,‘ACA’ ,‘.’]
将一个句子分解成更小的、独立的部分可以帮助计算机理解句子的各个部分，以及它们在上下文中的作用，这对于进行大量上下文的分析尤其重要。分词化有不同的粒度分类：
‒ 词粒度（Word-Level Tokenization）分词化，如上文中例子所示，适用于大多数西方语言，如英语。
‒ 字符粒度（Character-Level）分词化是中文最直接的分词方法，它是以单个汉字为单位进行分词化。
‒ 子词粒度（Subword-Level）分词化，它将单词分解成更小的单位，比如词根、词缀等。这种方法对于处理新词（比如专有名词、网络用语等）特别有效，因为即使是新词，它的组成部分（子词）很可能已经存在于词表中了。
每一个token都会通过预先设置好的词表，映射为一个 token id，这是token 的“身份证”，一句话最终会被表示为一个元素为token id的列表形式，供计算机进行下一步处理。
在这里插入图片描述

这两句话包含了16个tokens

3.2、大语言模型生成文本的过程

大语言模型的工作概括来说是根据给定的文本预测下一个token。对我们来说，看似像在对大模型提问，但实际上是给了大模型一串提示文本，让它可以对后续的文本进行推理。
大模型的推理过程不是一步到位的，当大模型进行推理时，它会基于现有的token，根据概率最大原则预测出下一个最有可能的token，然后将该预测的token加入到输入序列中，并将更新后的输入序列继续输入大模型预测下一个token，这个过程叫做自回归。直到输出特殊token（如，end of sentence，专门用来控制推理何时结束）或输出长度达到阈值。
在这里插入图片描述