AI大模型四阶技术总览
深度解读 AI 发展四轮浪潮
• 技术浪潮:弱人工智能、机器学习、深度学习、大语言模型
• 应用浪潮:高校共识、硅谷创新、中美博弈
• 把握浪潮:AI 大模型助力超级个体和小团队
AI 大模型四阶技术总览
• 提示工程(Prompt Engineering)
• AI智能体(Agents)
• 大模型微调(Fine-tuning)
• 预训练技术(Pre-training)
技术对比
提示工程(Prompt Engineering)
Prompt : 大模型时代的沟通话术
基于GPT 的Prompt 技巧最佳实践
• 角色设定:擅于使用 System 给GPT设定角色和任务,如“哲学大师”;
• 指令注入:在 System 中注入常驻任务指令,如“主题创作”;
• 问题拆解:将复杂问题拆解成的子问题,分步骤执行,如:Debug 和多任务;
• 分层设计:创作长篇内容,分层提问,先概览再章节,最后补充细节,如:小说生成;
• 编程思维:将prompt当做编程语言,主动设计变量、模板和正文,如:评估模型输出质量;
• Few-Shot:基于样例的prompt设计,规范推理路径和输出样式,如:构造训练数据;
使用 LangChain 和 OpenAI API 自动化构造 Prompt
AI Agents(智能体)
AI Agents 基础:ReAct 范式
LangChain Agent: 构建复杂应用的代理系统
LangChain Agents 设计原理
Agents 的核心思想是使用LLM来决策一系列要执行的动作,以完成目标。
- 在链式结构(Chains)中,一系列动作执行是硬编码的( SequentialChain 和 RouterChain 也仅实现了面向过程)。
- 在代理(Agents)中,语言模型被用作推理引擎,以确定应该采取哪些动作以及执行顺序。
LangChain Agents Ecosystem
规划(Planning)
• 提示(Prompt):
- LLM 多角色赋能
- 给予充分的上下文(例:从 Memory 获取)
- 学习策略(例:思维链 CoT)
• 代理(Agent):决策下一步做什么
记忆(Memory)
• 短期(Short-term):内存
• 长期(Long-term):向量数据库
工具(Tools)
• 百花齐放的外部可调用服务
智能代理分类:
• 行动代理(Action agents):旨在决定行动序列(工具使用)(例如OpenAI Funciton Call,ReAct)。
• 模拟代理(Simulation agents):通常设计用于角色扮演,在模拟环境中进行(例如生成式智能体,CAMEL)
• 自主智能体(Autonomous agent):旨在独立执行以实现长期目标(例如Auto-GPT, BabyAGI)。
基于 LangChain 的 RAG 应用设计
大模型微调(Fine-tuning)
为什么需要微调大模型
- 预训练成本高(LLaMA-65B 需要780GB 显存)
- 提示工程有天花板(token 上限与推理成本)
- 基础模型缺少特定领域数据
- 数据安全和隐私
- 个性化服务需要私有化的微调大模型
GPT 系列模型迭代:预训练+微调
大模型微调技术路线
- 全量微调(Full Fine-Tune, FFT)
- 高效微调(Parameter-Efficient Fine-Tune, PEFT)
- 有监督微调(Supervised Fine-tune, SFT)
- 基于人类反馈的强化学习(RLHF)
- 基于AI反馈的强化学习(RLAIF)
全量微调问题
训练成本高灾难性遗忘
PEFT 主流技术方案
- 围绕 Token 做文章:语言模型(PLM)不变
- Prompt Tuning
- Prefix Tuning
- P-Tuning
- 特定场景任务:训练“本质”的低维模型
- LoRA
- QLoRA
- AdaLoRA
- 新思路:少量数据、统一框架
- IA3
- UniPELT
预训练技术(Pre-training)
预训练语言模型 (Pre-trained language models)
预训练语言模型的三种网络架构(2018-2020)
基于 Transformer 的语言模型总成本依然很高(2020)
主要体现在以下参数:
- 数据集大小
- 模型大小(以参数量表示)
- 训练量(以预训练过程中处理的token 总数量表示)
根据谷歌发布的信息,研究者估计在训练110 亿参数的T5 变体时,单次运行成本就远远超出了130 万美元。假设T5 大模型和数百个小模型运行2-3次,则整个项目的成本可能就达到了1000 万美元。
过程中处理的token 总数量表示)
根据谷歌发布的信息,研究者估计在训练110 亿参数的T5 变体时,单次运行成本就远远超出了130 万美元。假设T5 大模型和数百个小模型运行2-3次,则整个项目的成本可能就达到了1000 万美元。