收藏

AI大模型算法-从大模型原理剖析到训练(微调)落地实战

AI大模型工程师高薪必备:架构原理+训练优化+行业项目开发与部署,一站式掌握大模型训练核心技术

AI大模型算法-从大模型原理剖析到训练(微调)落地实战

上新特惠
¥999
原价¥1299.00
未完结 每周更新 难度 中级 时长 45小时 学习人数 79 综合评分 10.00
  • 第1章 课程导学与环境介绍 试看 7 节 | 164分钟

    本章让学员对课程有初步认知,包括课程的具体安排、学习建议以及所需的硬件资源,无论是个人学习还是公司开发场景皆有涉及。同时,详细阐述在 AI 时代学习大模型和 DeepSeek 理论知识的重要性,针对中国开发者强调重点学习 DeepSeek 的意义。还会讲解大模型常用网站和开源模型下载方法,以及 Linux Anaconda 等开...

    收起列表

    • 视频: 1-1 课程介绍与安排【不要错过】 (30:08) 试看
    • 视频: 1-2 为什么在AI时代要学习大模型及其相关的理论知识 (28:13)
    • 视频: 1-3 中国开发者学习DeepSeek的意义 (16:40)
    • 视频: 1-4 大模型常用学习资源与模型下载 (18:35)
    • 视频: 1-5 Anaconda 介绍及安装 (24:48)
    • 视频: 1-6 pycharm安装级连接远程服务器 (12:56)
    • 视频: 1-7 按图索骥 AI技术全景介绍 (32:07) 试看
  • 第2章 【小试牛刀】DeepSeek认知与体验 4 节 | 86分钟

    本课帮助学员建立对 DeepSeek 的全面认识,从理论到实践展开。理论部分将对比分析 DeepSeek 与其他大模型的架构特点和技术演进,重点解析其创新设计; 实战部分基于DeepSeek结合提示工程搭建功能强大的翻译机 、几行代码实现DeepSeek蒸馏模型私有化部署实战 。让大家既能直观理解 Deep Seek 的技术优势,又能掌握基...

    收起列表

    • 视频: 2-1 ChatGPT的诞生和DeepSeek的追赶 (20:45)
    • 视频: 2-2 DeepSeek能力体验与大模型的影响 (20:46)
    • 视频: 2-3 小试牛刀1-基于DeepSeek结合提示工程搭建功能强大的翻译机 (25:23)
    • 视频: 2-4 小试牛刀2-几行代码实现DeepSeek蒸馏模型私有化部署实战 (18:58)
  • 第3章 【大模型理论】DeepSeek的诞生之路 11 节 | 159分钟

    本章循序渐进地阐释DeepSeek的技术渊源与发展脉络。从NLP基础理论出发,系统梳理从传统方法到现代模型的演进过程,帮助学习者建立完整的认知框架。内容涵盖自然语言处理核心概念、词向量技术原理与实践、预训练模型发展等关键知识点,通过理论解析与实战演练相结合的方式,让学习者深入理解DeepSeek的技术背景和理论基础,...

    收起列表

    • 视频: 3-1 自然语言处理解决的是什么问题 (09:16)
    • 视频: 3-2 规则和统计学的方法 (10:19)
    • 视频: 3-3 为什么要使用词向量以及向量表示的作用 (14:57) 试看
    • 视频: 3-4 如何获得一份表示良好的词向量? (26:35)
    • 视频: 3-5 词向量的价值 (03:04)
    • 视频: 3-6 小试牛刀 词向量实战 (21:19)
    • 视频: 3-7 预训练模型(BERT、GPT) (24:56)
    • 视频: 3-8 小试牛刀 预训练模型实战 (12:35)
    • 视频: 3-9 大语言模型的诞生 (12:34)
    • 视频: 3-10 DeepSeek的诞生 (11:46)
    • 视频: 3-11 大模型产生智能的原因 (11:39)
  • 第4章 【特征编码器Transformer】深入理解大模型的输入输出 11 节 | 153分钟

    聚焦于大模型输入输出的核心机制。先讲解大模型的文本切分和 Token 概念,深入探讨 Tokenizer 的作用和影响,包括 BPE 算法的训练和编码过程,并通过手撸代码实战加深理解。接着介绍大模型输入中的位置编码原理和实战,以及输出流程和解码过程,最后通过实战寻找模型最佳的解码参数。...

    收起列表

    • 视频: 4-1 大模型的文本切分与Token (09:13)
    • 视频: 4-2 大模型的Tokenizer (13:38)
    • 视频: 4-3 深入理解Tokenizer的作用及影响 (12:47)
    • 视频: 4-4 【小试牛刀】Tokenizer实战 (06:58)
    • 视频: 4-5 深入理解BPE算法训练和编码过程 (15:29)
    • 视频: 4-6 【实战】手撸BPE算法训练代码 (27:46)
    • 视频: 4-7 初步了解大模型中的位置编码 (16:28)
    • 视频: 4-8 大模型的输出流程介绍 (07:52)
    • 视频: 4-9 大模型解码原理详细介绍 (17:09)
    • 视频: 4-10 【实战】寻找大模型最佳推理参数实战(一) (13:07)
    • 视频: 4-11 【实战】寻找大模型最佳推理参数实战(二) (11:41)
  • 第5章 【特征编码器Transformer】深入Transfomer中的注意力机制 19 节 | 330分钟

    围绕 Transformer 中的注意力机制展开。先进行基础知识准备,然后深入剖析注意力机制的原理,通过手撸 attention 实现代码进行实践。介绍大模型中的残差结构与 FFN,探讨多种注意力机制以平衡效率与性能,并手搓多种注意力机制的实现代码,最后通过手撸 Transformer 实现代码深入理解整个架构。...

    收起列表

    • 视频: 5-1 Transformer基础知识准备 (24:16)
    • 视频: 5-2 【实战】手撸LayerNorm 代码 (27:28)
    • 视频: 5-3 【实战】手撸softmax代码 (17:01)
    • 视频: 5-4 深入理解注意力机制 (28:06)
    • 视频: 5-5 掩码自注意力机制 (10:47)
    • 视频: 5-6 多头注意力机制 (07:53)
    • 视频: 5-7 【实战】手撸attention机制代码 (21:06)
    • 视频: 5-8 【实战】手撸masked_self_attention (13:25)
    • 视频: 5-9 【实战】手撸MaskedMultiHeadAttention代码(1) (15:22)
    • 视频: 5-10 【实战】手撸MaskedMultiHeadAttention代码(2) (15:09)
    • 视频: 5-11 残差连接和FFN (15:07)
    • 视频: 5-12 【实战】手搓FFN和残差结构实现代码 (18:56)
    • 视频: 5-13 【实战】手撸Transformer Decoder Block实现 (12:44)
    • 视频: 5-14 【实战】手撸Transformer整体代码(一) (17:20)
    • 视频: 5-15 【实战】手撸Transformer整体代码(二) (19:37)
    • 视频: 5-16 attention机制的进化:GQA和MQA (12:11)
    • 视频: 5-17 【实战】手撸MQA注意力机制代码 (25:41)
    • 视频: 5-18 【实战】手撸GQA注意力机制代码(一) (13:59)
    • 视频: 5-19 【实战】手撸GQA注意力机制代码(二) (13:25)
  • 第6章 【特征编码器Transformer】深入Transfomer中的位置编码 7 节 | 89分钟

    专门探讨 Transformer 中的位置编码。介绍相对位置编码的优势和特点,讲解旋转位置编码 RoPE 的理论基础、核心参数及其影响,探讨其变种形式,分析大模型长文本外延与旋转位置编码的关系,最后通过手撸旋转位置编码 RoPE 代码进行实践。...

    收起列表

    • 视频: 6-1 相对位置编码介绍 (15:43)
    • 视频: 6-2 旋转位置编码理论 (19:06)
    • 视频: 6-3 手撸旋转位置编码ROPE(1) (10:46)
    • 视频: 6-4 手撸旋转位置编码ROPE(2) (08:49)
    • 视频: 6-5 手撸旋转位置编码ROPE(3) (11:53)
    • 视频: 6-6 旋转位置编码的核心参数及其影响 (09:52)
    • 视频: 6-7 旋转位置编码的变种 (12:43)
  • 第7章 【预训练】大语言模型的预训练 13 节 | 132分钟

    介绍大语言模型预训练的相关知识。先阐述大模型的经典训练框架,包括预训练和后训练。接着详细讲解大模型预训练的目标、任务、数据和过程。然后介绍常见的大模型评估测试集以及不同方面的评估方法,如代码、数学、长文等,构建大模型的评估体系,最后通过实战进行大模型代码能力评估...

    收起列表

    • 视频: 7-1 大语言模型经典训练框架介绍 (10:01)
    • 视频: 7-2 大模型预训练(目标与任务) (09:04)
    • 视频: 7-3 大模型预训练(MTPL多Token预测) (07:41)
    • 视频: 7-4 大模型预训练(预训练数据和处理) (04:14)
    • 视频: 7-5 大模型预训练(预训练过程) (03:58)
    • 视频: 7-6 大模型的评估体系 (12:33)
    • 视频: 7-7 大模型代码能力的评估 (07:49)
    • 视频: 7-8 大模型数学能力的评估 (08:59)
    • 视频: 7-9 大模型阅读理解能力的评估 (08:40)
    • 视频: 7-10 大模型综合评测榜单介绍 (12:52)
    • 视频: 7-11 【实战】DeepSeek代码能力评估实战之(第一步:模型推理) (18:31)
    • 视频: 7-12 【实战】DeepSeek代码能力评估实战之(第二步:模型结果处理) (17:11)
    • 视频: 7-13 【实战】DeepSeek代码能力评估之(第三步:代码执行检查) (09:57)
  • 第8章 【预训练】 预训练的数据工程 9 节 | 94分钟

    关注大模型预训练的数据工程。介绍大模型的数据搜集和处理过程,阐述动态训练策略,包括数据配比等。探讨大语言模型面临的合规与工程挑战,最后通过实战介绍大模型预训练海量数据的处理和配比。

    收起列表

    • 视频: 8-1 大模型预训练的数据搜集过程(数据集1) (12:48)
    • 视频: 8-2 大模型预训练的数据搜集过程(数据集2) (13:43)
    • 视频: 8-3 大模型预训练的数据搜集过程(预训练数据构造流程) (03:16)
    • 视频: 8-4 大模型预训练的数据处理过程(数据处理流程) (03:06)
    • 视频: 8-5 大模型预训练的数据处理过程(数据过滤+去重+审核) (09:27)
    • 视频: 8-6 大语言模型预训练的多领域数据配比与学习顺序 (13:22)
    • 视频: 8-7 大模型安全问题 (08:58)
    • 视频: 8-8 大模型安全挑战:新型攻击与防御 (05:57)
    • 视频: 8-9 LLM预训练领域数据配比DoReMI深度解读 (22:28)
  • 第9章 【预训练】 预训练的硬件体系讲解 持续更新

    讲解大模型预训练的硬件体系。先介绍大模型训练的算力基础显卡,接着阐述分布式服务器网络架构、硬件 HAL 层、通信硬件抽象 NCCL 以及通信调度框架和拓扑感知通信等内容。

  • 第10章 【预训练】 预训练的训练过程 持续更新

    深入介绍大模型分布式预训练的过程。先概述基本过程,然后分别解析数据并行、3D 混合并行、异构并行等不同并行方式的代码。探讨分布式训练的并行与优化策略,介绍万亿参数预训练的软件框架,最后通过实战详细解析千亿 Token 万卡万亿参数预训练代码。...

  • 第11章 【后训练】有监督微调 持续更新

    围绕有监督微调展开。先说明预训练与后训练的关系,接着介绍指令理解技术模型微调 SFT,包括其评估方法、数据构造方式,如思维链构造模型逻辑推理能力。还会介绍模型微调的软件框架,最后通过实战利用 Deepseek 思维链数据训练模型的推理能力。...

  • 第12章 【后训练】参数高效督微调 持续更新

    介绍参数高效微调技术。先概述参数高效微调的概念,然后分别讲解 Adapter Tuning、Prefix/Prompt Tuning、重参数化(Lora 与 QLoRA)等方法,介绍相关软件框架 PEFT,最后通过实战进行大模型生成公文项目的参数高效微调。

  • 第13章 【后训练】强化学习基础 持续更新

    奠定强化学习的基础。介绍马尔可夫决策过程,讲解强化学习的基本概念,如策略、奖励函数、价值函数和 KL 散度等。分别介绍值学习算法和策略梯度算法,最后通过实战进行强化学习算法实践。

  • 第14章 【后训练】人类反馈式强化学习 持续更新

    专注于人类反馈式强化学习。先介绍强化学习算法中的奖励模型,接着概述人类反馈式强化学习,深入理解 PPO 算法及其简化版 DPO 算法,最后通过实战详细解析 PPO 算法代码。

  • 第15章 【DeepSeek核心技术解密】国产AI的崛起 DeepSeek核心技术突破 持续更新

    介绍国产 AI DeepSeek 的核心技术突破。先分析全球 AI 竞争格局,介绍 DeepSeek 模型的优点与创新。接着详细阐述核心算法架构创新,如 MLA 降低显存占用、GRPO 提升强化学习效率、MOE 优化训练稳定性等。最后介绍训练工程的突破和推理性能的提升...

  • 第16章 【DeepSeek核心技术解密】DeepSeek V3与DeepSeek R1 持续更新

    聚焦于 DeepSeek V3 和 DeepSeek R1 模型。强调 DeepSeek R1 的逻辑推理能力,从数据和训练两个方面介绍其构建逻辑推理能力的方法。深入理解大模型逻辑推理能力,从应用角度对比两个模型,最后通过多个强化微调实战项目,包括基于蒸馏数据微调、GRPO 算法强化微调等,提升模型性能...

  • 第17章 【企业落地实战】赋能千行百业:大模型落地应用透析 持续更新

    探讨大模型在实际应用中的情况。先介绍大模型落地应用所需的核心能力支撑,接着分析大模型落地的现状,从技术验证到价值闭环的转变。介绍典型应用场景和案例,指出大模型落地面临的技术、成本和伦理挑战,最后引发关于大模型时代个人发展的思考...

  • 第18章 【企业落地实战】大模型落地应用核心方法论 持续更新

    介绍大模型落地应用的核心方法。讲解提示工程如何解决业务问题,引入 RAG 技术获取实时业务知识,介绍模型微调技术解决业务问题的方法,包括数据构造、训练技巧和评估方法。还会介绍模型量化和高效推理部署方案,以及大模型 Agent 和 MCP 的相关内容,并通过实战进行模型微调训练...

  • 第19章 【企业落地实战】Agent智能政务助手:具备十万字长文档理解 持续更新

    以政务服务智能客服项目为例进行企业级实战剖析。先分享大厂算法工程师的 AI 落地经验,接着介绍项目目标、需求分析、数据处理和知识库构建。设计基于 RAG 的政务智能客服方案,包括召回和排序方案,搭建整体链路并进行效果评估和问题分析。还会介绍模型微调方案及效果评估,最后探讨系统升级引入 Function call 和...

  • 第20章 【企业落地实战】生成公文写作系统:具备层次化多级目录万字长公文写作能力 持续更新

    围绕大模型生成公文写作产品展开。先进行需求分析,研究知名公文写作产品。接着制定产品方案、数据标注方案、训练方案,进行效果评估和调优

  • 第21章 【展望与前瞻】 多模态与大模型发展趋势 持续更新

    介绍大模型未来的发展以及学员的求职指导

每周更新直至完结

试看

全部试看小节



讲师

毕业于华中科技大学,曾就职高通、平安,具有多年实战和教学经验。主研大语言模型、机器人对话系统、搜索的落地应用。

课程预览

检测到您还没有关注慕课网服务号,无法接收课程更新通知。请扫描二维码即可绑定
重新观看
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

学习咨询

选课、学习遇到问题?

扫码添加指导老师 1V1 帮助你!

添加后老师会第一时间解决你的问题