全部试看小节
本章让学员对课程有初步认知,包括课程的具体安排、学习建议以及所需的硬件资源,无论是个人学习还是公司开发场景皆有涉及。同时,详细阐述在 AI 时代学习大模型和 DeepSeek 理论知识的重要性,针对中国开发者强调重点学习 DeepSeek 的意义。还会讲解大模型常用网站和开源模型下载方法,以及 Linux Anaconda 等开...
本课帮助学员建立对 DeepSeek 的全面认识,从理论到实践展开。理论部分将对比分析 DeepSeek 与其他大模型的架构特点和技术演进,重点解析其创新设计; 实战部分基于DeepSeek结合提示工程搭建功能强大的翻译机 、几行代码实现DeepSeek蒸馏模型私有化部署实战 。让大家既能直观理解 Deep Seek 的技术优势,又能掌握基...
本章循序渐进地阐释DeepSeek的技术渊源与发展脉络。从NLP基础理论出发,系统梳理从传统方法到现代模型的演进过程,帮助学习者建立完整的认知框架。内容涵盖自然语言处理核心概念、词向量技术原理与实践、预训练模型发展等关键知识点,通过理论解析与实战演练相结合的方式,让学习者深入理解DeepSeek的技术背景和理论基础,...
聚焦于大模型输入输出的核心机制。先讲解大模型的文本切分和 Token 概念,深入探讨 Tokenizer 的作用和影响,包括 BPE 算法的训练和编码过程,并通过手撸代码实战加深理解。接着介绍大模型输入中的位置编码原理和实战,以及输出流程和解码过程,最后通过实战寻找模型最佳的解码参数。...
围绕 Transformer 中的注意力机制展开。先进行基础知识准备,然后深入剖析注意力机制的原理,通过手撸 attention 实现代码进行实践。介绍大模型中的残差结构与 FFN,探讨多种注意力机制以平衡效率与性能,并手搓多种注意力机制的实现代码,最后通过手撸 Transformer 实现代码深入理解整个架构。...
专门探讨 Transformer 中的位置编码。介绍相对位置编码的优势和特点,讲解旋转位置编码 RoPE 的理论基础、核心参数及其影响,探讨其变种形式,分析大模型长文本外延与旋转位置编码的关系,最后通过手撸旋转位置编码 RoPE 代码进行实践。...
介绍大语言模型预训练的相关知识。先阐述大模型的经典训练框架,包括预训练和后训练。接着详细讲解大模型预训练的目标、任务、数据和过程。然后介绍常见的大模型评估测试集以及不同方面的评估方法,如代码、数学、长文等,构建大模型的评估体系,最后通过实战进行大模型代码能力评估...
关注大模型预训练的数据工程。介绍大模型的数据搜集和处理过程,阐述动态训练策略,包括数据配比等。探讨大语言模型面临的合规与工程挑战,最后通过实战介绍大模型预训练海量数据的处理和配比。
讲解大模型预训练的硬件体系。先介绍大模型训练的算力基础显卡,接着阐述分布式服务器网络架构、硬件 HAL 层、通信硬件抽象 NCCL 以及通信调度框架和拓扑感知通信等内容。
深入介绍大模型分布式预训练的过程。先概述基本过程,然后分别解析数据并行、3D 混合并行、异构并行等不同并行方式的代码。探讨分布式训练的并行与优化策略,介绍万亿参数预训练的软件框架,最后通过实战详细解析千亿 Token 万卡万亿参数预训练代码。...
围绕有监督微调展开。先说明预训练与后训练的关系,接着介绍指令理解技术模型微调 SFT,包括其评估方法、数据构造方式,如思维链构造模型逻辑推理能力。还会介绍模型微调的软件框架,最后通过实战利用 Deepseek 思维链数据训练模型的推理能力。...
介绍参数高效微调技术。先概述参数高效微调的概念,然后分别讲解 Adapter Tuning、Prefix/Prompt Tuning、重参数化(Lora 与 QLoRA)等方法,介绍相关软件框架 PEFT,最后通过实战进行大模型生成公文项目的参数高效微调。
奠定强化学习的基础。介绍马尔可夫决策过程,讲解强化学习的基本概念,如策略、奖励函数、价值函数和 KL 散度等。分别介绍值学习算法和策略梯度算法,最后通过实战进行强化学习算法实践。
专注于人类反馈式强化学习。先介绍强化学习算法中的奖励模型,接着概述人类反馈式强化学习,深入理解 PPO 算法及其简化版 DPO 算法,最后通过实战详细解析 PPO 算法代码。
介绍国产 AI DeepSeek 的核心技术突破。先分析全球 AI 竞争格局,介绍 DeepSeek 模型的优点与创新。接着详细阐述核心算法架构创新,如 MLA 降低显存占用、GRPO 提升强化学习效率、MOE 优化训练稳定性等。最后介绍训练工程的突破和推理性能的提升...
聚焦于 DeepSeek V3 和 DeepSeek R1 模型。强调 DeepSeek R1 的逻辑推理能力,从数据和训练两个方面介绍其构建逻辑推理能力的方法。深入理解大模型逻辑推理能力,从应用角度对比两个模型,最后通过多个强化微调实战项目,包括基于蒸馏数据微调、GRPO 算法强化微调等,提升模型性能...
探讨大模型在实际应用中的情况。先介绍大模型落地应用所需的核心能力支撑,接着分析大模型落地的现状,从技术验证到价值闭环的转变。介绍典型应用场景和案例,指出大模型落地面临的技术、成本和伦理挑战,最后引发关于大模型时代个人发展的思考...
介绍大模型落地应用的核心方法。讲解提示工程如何解决业务问题,引入 RAG 技术获取实时业务知识,介绍模型微调技术解决业务问题的方法,包括数据构造、训练技巧和评估方法。还会介绍模型量化和高效推理部署方案,以及大模型 Agent 和 MCP 的相关内容,并通过实战进行模型微调训练...
以政务服务智能客服项目为例进行企业级实战剖析。先分享大厂算法工程师的 AI 落地经验,接着介绍项目目标、需求分析、数据处理和知识库构建。设计基于 RAG 的政务智能客服方案,包括召回和排序方案,搭建整体链路并进行效果评估和问题分析。还会介绍模型微调方案及效果评估,最后探讨系统升级引入 Function call 和...
围绕大模型生成公文写作产品展开。先进行需求分析,研究知名公文写作产品。接着制定产品方案、数据标注方案、训练方案,进行效果评估和调优
介绍大模型未来的发展以及学员的求职指导
全部试看小节
如无法下载使用图片另存为
下载海报选课、学习遇到问题?
扫码添加指导老师 1V1 帮助你!
添加后老师会第一时间解决你的问题