现在基本已经有全民 AI 浪潮的势头了,很多人的工作生活已经离不开大模型。但你了解大模型的本质吗?它的工作原理是什么?token 又是怎么来的?
今天就带大家用一篇文章速通大语言模型,快速搞懂这个概念!
大模型的本质
想象你有个朋友,他 7x24 小时刷遍互联网,但他并不真正“理解”任何知识,只是死记硬背人类说过的话。当你提问时,他就像在玩“关键词接龙”,把最常见的词句拼接在一起,组合成看起来合理的答案。
这就是大语言模型的本质:文本拼接器。
那么什么样的答案叫“合理”?
比如我说 唱、跳,你会跟 rap! 我说 回答我!你会说look in my eyes,tell me why why baby why!
这些都合理吧?
大模型 就好比浏览了人类编写的数十亿文本,它会根据我们输入的文本,“猜测”接下来会出现什么词,这些词的概率是多少。比如:
look in my eyes | 3.3% |
---|---|
你回答我 | 3.1% |
你爱我吗 宝贝 | 2.5% |
然后根据概率选择一个词,拼接上面的文本中后,继续询问“下一个词是什么”。
tell me why | 5.3% |
---|---|
answer me | 3.5% |
kiss me | 3.3% |
就这样不断地询问,最终得到结果。
“回答我!look in my eyes tell me why”
所以我们称大语言模型的本质为:概率缝合怪。
看到这你是否会产生一个疑问?
如果大模型就是按照概率排序来选择“下一个词”,那么同样的问题,每次询问大语言模型得到的结果不是应该完全一致吗?
这种情况我们一般称之为:人机。
为了避免这种情况,大语言模型引入了“温度”这个概念,用它来控制下一个词的“随机性”,而不是完全按照概率排名。
于是即便是同一个提示词,我们每次得到的内容也可能会不同。
像 DeepSeek 给出的接口就建议,代码生成/数据题解类,温度设置的低一些,确保回答的稳定性和正确性。创意类的写作,温度设置的就高一些,确保回答的发散性和创造性。
什么是 token?
理解温度后,我们再学习 token 这个概念。
那我问你。
大模型给出回答里,“look in my eyes” 是一个词吗?很明显不是。
在大语言模型场景,其实每次添加的是一个 token,而不是词。
那什么是 token?
实际上,大语言模型是个文盲,它完全不懂 look in my eyes 的含义,只会利用一个叫分词器的家伙,把这些文本进行切割,切完的小文本就是一个个 token。
为什么要切?
前面我们提到大语言模型的本质是概率缝合怪,那么只有把大文本切成一个一个小文本,才好按照概率排名来选择“下一个词”,近而得到“合理”的回答。
可能这样切。
也可能这样切。
这完全取决于不同大模型的分词方法。
比如通过统计学来实现分词,在统计大量文本后发现“回答” 这两个字,经常出现,那么“回答”就可以变成一个 token。
发现 “!” 经常出现,那么“!”也是一个 token。
发现“ing” 经常出现,那么 “ing” 也是一个 token。
所以 token 可以是一个单词、单词组合、标点符号甚至是单词的一部分。如果说我们人类以字为基本语言单位,那么大语言模型就是以 token 为基本语言单位。
除此之外,token 还有一个非常现实的作用:计费。
和小说按字数计费类似,token 数代表了大语言模型在计算和生成内容时所消耗的资源。
这里还有一个概念叫做上下文窗口。
简单理解就是大模型可以处理 token 数量,上下文越大,能处理的 token 数越多。能处理的 token 数量越多,大模型对信息理解就会越充分,最终给出的结果就会更“合理”。
以前,在大模型能处理 token 数较少的情况下,让它总结一本《三体 2:黑暗森林》(约 30 万字),几乎是不可能的——它会直接“宕机”,因为无法一次性处理这么大量的 token。
于是有聪明的朋友就想到了分批总结,将整本书拆成多个部分,挨个处理。即,让模型先总结一部分,然后在下一批处理中,携带上一批的总结内容继续提问。
这种方法虽然在一定程度上缓解了 token 限制,但由于每次都需要归纳上一批的内容,信息传递过程中不可避免地丢失了大量细节,导致最终的总结变得更加概括,甚至可能遗漏关键情节。
但如今,随着大模型的飞速发展,部分先进模型已经能够一次性处理整本《三体 2》,不再需要分批。这意味着,它们能更完整地理解上下文,保留更多细节,从而生成更加精准、全面的总结。
AI 的应用场景极为广泛,不仅可以用于总结论文、提炼报告核心内容,还能优化数据分析流程,甚至辅助创作和决策。无论是普通上班族还是程序员,AI 都已成为不可忽视的重要工具。我们应当尽快拥抱 AI,充分利用其优势,以提升工作效率和竞争力。
接下来,我们将分享如何自动化构建 RAG 应用、实现智能聊天机器人等前沿 AI 技术,帮助大家直观、便捷地理解并应用 AI。
如何学习AI大模型 ?
“最先掌握AI的人,将会晚掌握AI的人有竞争优势,晚掌握AI的人比完全不会AI的人竞争优势更大”。 在这个技术日新月异的时代,不会新技能或者说落后就要挨打。
老蓝我作为一名在一线互联网企业(保密不方便透露)工作十余年,指导过不少同行后辈。帮助很多人得到了学习和成长。
我是非常希望可以把知识和技术分享给大家,但苦于传播途径有限,很多互联网行业的朋友无法获得正确的籽料得到学习的提升,所以也是整理了一份AI大模型籽料包括:AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、落地项目实战等 免费分享出来。
AI大模型学习路线图
100套AI大模型商业化落地方案
100集大模型视频教程
200本大模型PDF书籍
LLM面试题合集
AI产品经理资源合集
大模型学习路线
想要学习一门新技术,你最先应该开始看的就是学习路线图,而下方这张超详细的学习路线图,按照这个路线进行学习,学完成为一名大模型算法工程师,拿个20k、15薪那是轻轻松松!
视频教程
首先是建议零基础的小伙伴通过视频教程来学习,其中这里给大家分享一份与上面成长路线&学习计划相对应的视频教程。文末有整合包的领取方式
技术书籍籽料
当然,当你入门之后,仅仅是视频教程已经不能满足你的需求了,这里也分享一份我学习期间整理的大模型入门书籍籽料。文末有整合包的领取方式
大模型实际应用报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。文末有整合包的领取方式
大模型落地应用案例PPT
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。文末有整合包的领取方式
大模型面试题&答案
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。文末有整合包的领取方式
领取方式
这份完整版的 AI大模型学习籽料我已经上传CSDN,需要的同学可以微⭐扫描下方CSDN官方认证二维码免费领取!
。