
大模型科普:揭秘智能文本背后的奥秘
文章平均质量分 93
近年来,大型语言模型(LLMs)以前所未有的能力席卷人工智能领域。它们能对话、写作、编码,展现出惊人的智能。这些“智能文本”背后究竟是什么?“大模型科普”专栏将用通俗易懂的语言,深入浅出地介绍LLMs的原理、应用和未来。无论您是技术爱好者还是好奇的读者,都能在这里找到答案。让我们一起探索智能文本的奥
(initial)
大模型方向,持续学习,乐于分享。公众号:智语Bot
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第七章:LangChain Agent 基础:构建、定制与调试
通过 “Thought (思考), Action (行动), Action Input (行动输入), Observation (观察结果)” 的交错循环工作。LLM 显式地输出其思考过程。通用性强,推理过程透明。可能需要更精巧的 Prompt 和 Parser,对 LLM 的遵循指令能力要求较高。利用 OpenAI 等模型内置的函数调用 (Function Calling)或工具使用 (Tool Use)能力。LLM 直接返回结构化的工具调用指令。更结构化,通常更可靠,Prompt 可能更简洁。原创 2025-04-28 09:00:00 · 992 阅读 · 0 评论 -
迈向自省与协作:AI 如何通过迭代优化与集体智慧走向可靠
(Yao et al., 2023) 主要关注改进单次生成的推理过程,但它们也体现了“生成中间步骤/多路径 -> 评估/选择”的思想,与迭代优化和评估选择有共通之处,尤其 ToT 明确包含了对不同思考路径的探索和评估。更进一步,让多个 AI 智能体(通常是 LLM 实例)扮演不同的角色(例如,提议者、质疑者、不同视角的专家、裁判),通过模拟人类社会的讨论、辩论或协作过程来共同完成复杂任务或生成更高质量的综合性输出。等方式,对初始输出进行评估、反馈和修正,从而显著提升最终结果的质量、可靠性和深度。原创 2025-04-10 10:42:40 · 961 阅读 · 0 评论 -
解锁连接的力量:GraphRAG 如何重塑信息检索与大模型交互
通过利用数据的内在图结构,GraphRAG 有潜力为 LLM 提供更丰富、更连贯、更具逻辑性的上下文,从而显著提升其在复杂问答、深度分析、内容生成等任务上的表现。未来,我们有望看到更多基于图谱理解和图感知检索的智能系统,它们不仅能“读懂”文本,更能“理解”知识背后的复杂关联,推动人机信息交互迈向新的高度。现实世界的信息,无论是科学文献、代码库、组织内部文档还是互联网本身,本质上都并非孤立存在,而是通过引用、依赖、关联、因果等关系相互连接,形成复杂的网络(图)结构。它不再将知识源视为扁平的文本集合,而是。原创 2025-04-09 17:22:20 · 1157 阅读 · 0 评论 -
超越简单检索:探索知识图谱与大型语言模型的协同进化之路
未来的研究需要在理论突破、算法创新、系统工程和落地应用上协同发力,最终实现语言智能与知识智能的深度协同进化,孕育出真正“懂知识”并能负责任地运用知识的人工智能。与此同时,知识图谱(Knowledge Graphs, KGs),如 Wikidata、DBpedia 或特定领域的专业图谱,以结构化的形式(通常是实体-关系-实体的三元组)存储着大量经过验证的事实和知识。:利用 LLM 的自然语言能力作为与结构化知识交互的桥梁,同时借助 KG 的精确性和推理能力来约束和增强 LLM 的输出,实现。原创 2025-04-09 17:09:18 · 1061 阅读 · 0 评论 -
未来趋势展望:更大规模、更强智能、更可信赖的大模型
这与模型规模的扩大和更高效的架构设计密不可分。分布式训练技术的普及将加速超大规模模型的训练过程,而模型压缩与加速技术(如量化、剪枝、知识蒸馏)将降低模型的部署成本和延迟,使得 LLMs 能够在更广泛的设备上运行,例如在移动设备或边缘服务器上实现更强大的 AI 功能。最终目标是构建更接近人类的智能水平的 LLMs,使其在更广泛的任务上展现出通用智能的潜力,并探索与人类思维模式更接近的认知机制,例如学习抽象概念、进行类比推理、甚至展现出初步的常识理解,为人工通用智能 (AGI) 的初步探索与展望奠定基础。原创 2025-03-23 10:50:39 · 691 阅读 · 0 评论 -
大模型的可解释性、可信赖性与伦理
大型语言模型(LLMs)正以前所未有的速度和规模渗透到我们生活的方方面面。从自然语言处理到内容创作,再到复杂的决策辅助,LLMs 的潜力令人瞩目。然而,随着其能力的增强,对其内部运作机制的理解(可解释性)、在各种情境下的可靠性(可信赖性)以及与人类价值观的对齐(伦理)成为了至关重要的议题。本章将深入探讨 LLMs 在可解释性、鲁棒性、公平性以及伦理与价值观对齐方面所面临的挑战,并介绍相关的技术和方法。同时,我们将融入哲学视角,以更深层次地理解这些技术和社会影响。原创 2025-03-23 10:44:14 · 926 阅读 · 0 评论 -
终极AI梦想:当智能体拥有人类般的感知、行动与交流
它们不仅拥有强大的逻辑分析能力,更能自如地运用工具,在复杂环境中轻松导航,用自然的语言与我们对话,通过“眼睛”洞察世界,甚至理解我们的情感,进行心领神会的交流。随着大模型和多模态模型的持续发展,以及具身智能领域研究的不断深入,我们正在一步步接近那个曾经只存在于科幻小说中的梦想——创造出能够像人类一样感知、行动和交流的智能伙伴,它们将深刻地改变我们的生活和工作方式。的出现,正是为了弥补这一缺憾。它强调智能体需要拥有一个能够感知和作用于环境的“身体”——可以是真实的机器人,也可以是虚拟世界中的化身。原创 2025-03-22 09:00:00 · 499 阅读 · 0 评论 -
当大模型有了“身体”:具身智能与Agent模型探索
具身智能的核心在于强调智能体并非孤立地存在,而是通过其“身体”(可以是物理的机器人,也可以是虚拟环境中的化身)与环境进行感知和交互。智能并非仅仅存在于模型的算法或参数之中,而是深深地根植于智能体与环境的动态关系之中。一个具身智能体通过在环境中执行动作,观察其结果,并根据反馈调整自身的行为,从而逐步学习和理解世界的规律。原创 2025-03-21 11:35:04 · 1225 阅读 · 0 评论 -
多模态大模型 (Multimodal LLMs) 前沿算法
多模态大模型是人工智能领域的研究前沿,其目标是构建能够理解和处理多种模态信息的通用智能系统。本章介绍了当前一些具有代表性的前沿算法,涵盖了图文、视频和音频等多模态场景。这些算法在模型架构、训练方法和融合策略等方面进行了创新,不断推动着多模态大模型的发展,并在自动驾驶、智能助理、内容推荐系统等领域展现出广阔的应用前景。随着研究的深入,我们有理由相信,未来将出现更多更强大的多模态大模型,进一步拓展人工智能的应用边界。原创 2025-03-21 09:00:00 · 1337 阅读 · 0 评论 -
衡量智能的尺度:大模型评估指标与方法 (Evaluation Metrics and Methods for LLMs)
本章介绍了评估大型语言模型的多种指标和方法,涵盖了自然语言生成和理解任务的常见自动化评估指标、人类评估方法、偏见与公平性评估以及安全性和鲁棒性评估。选择合适的评估方法和指标对于全面了解 LLMs 的性能至关重要,并且能够指导模型的进一步发展和应用。随着技术的不断进步,未来还将涌现出更多更有效的评估方法,以更好地衡量 LLMs 的能力和安全性。原创 2025-03-20 11:56:53 · 1440 阅读 · 0 评论 -
智能模型的“智慧”提速:动态推理与条件计算
标准的 Transformer 层对所有输入都执行相同的 FFN 计算,而引入条件计算后,模型可以根据输入 token 的不同,动态地选择激活不同的 FFN 子网络(即 Experts)。例如,对于输入序列中的每个位置,模型可以根据其上下文信息,决定是否需要激活一个更复杂的 FFN 子网络,或者只需要一个更简单的计算路径。稀疏 MoE 模型的核心思想是将一个庞大的模型分解为多个小的、独立的子模型,称为“专家(Experts)”。每个专家都拥有独立的参数,并专注于学习不同的数据分布,从而提高模型的整体容量。原创 2025-03-20 11:04:59 · 904 阅读 · 0 评论 -
解密大模型推理加速神器:深入理解 KV 缓存、预填充与解码
在 Transformer 模型的每一层中,自注意力机制通过计算输入序列中不同位置之间的相关性来捕获上下文信息 [3]。对于输入序列的每个 token,模型会生成三个向量:Query (Q)、Key (K) 和 Value (V)。注意力得分通过 Query 和所有 Key 的点积计算,然后通过 Softmax 函数进行归一化,得到每个 Key 对应的注意力权重。最终,每个 token 的注意力输出是 Value 向量的加权和。数学上,对于一个包含。原创 2025-03-19 18:15:12 · 1201 阅读 · 0 评论 -
大模型高效推理:解锁AI应用落地的关键
大型模型,例如在自然语言处理(NLP)、计算机视觉(CV)、推荐系统和生成式AI等领域取得显著进展的Transformer模型,已经成为现代人工智能的核心驱动力。这些模型拥有令人印象深刻的能力,能够理解复杂的模式并生成高质量的内容。然而,其巨大的参数规模和计算需求给实际应用带来了严峻的挑战,尤其是在推理阶段。高效的推理不仅关乎用户体验,确保低延迟的响应,也直接影响到资源成本,降低计算和存储需求,并使得在实时性要求高的场景(如对话机器人和实时翻译)中部署这些强大的模型成为可能。原创 2025-03-19 14:23:30 · 1206 阅读 · 0 评论 -
大模型知识蒸馏:技术演进与未来展望
随着大模型的不断发展,知识蒸馏(Knowledge Distillation, KD)已经成为提高计算效率、降低部署成本的核心技术之一。相比标准的 KL 散度,R-KD 强调学生模型对自身高置信度区域的优化,从而在。通过模仿教师模型的推理步骤,使学生模型不仅学习最终结果,还学习推理过程。(R-KD)更注重高置信度区域,从而减少生成任务中的模式崩溃问题。过渡,新的思维链蒸馏、多模态蒸馏、逆向蒸馏等方法不断涌现。任务的快速发展,多模态蒸馏已成为大模型压缩的重要方向。对于一个推理任务,教师模型的思维链步骤为。原创 2025-03-18 22:32:03 · 1096 阅读 · 0 评论 -
知识蒸馏 (Knowledge Distillation) 算法
知识蒸馏是一种强大的模型优化技术,通过将高性能 Teacher 模型的知识迁移到更小的 Student 模型中,实现了模型压缩、加速和性能提升。基于 Logits、特征和对比学习的蒸馏是主流的蒸馏算法,它们各有特点,适用于不同的场景和需求。原创 2025-03-18 14:54:24 · 1431 阅读 · 0 评论 -
模型剪枝算法:优化深度学习模型的有效途径
#近年来,深度学习模型在众多领域展现出卓越的性能,但随之而来的模型体积和计算成本的急剧增加,严重阻碍了其在资源受限环境中的部署。模型剪枝 (Model Pruning) 作为一种关键的模型压缩技术应运而生,旨在通过识别并移除模型中冗余或不重要的参数和结构,在维持模型性能的同时,显著降低模型的参数量、减少计算资源消耗并加速推理过程。模型剪枝不仅能够提升模型在移动设备、嵌入式系统等边缘端的部署效率,还能降低云端推理服务的成本。原创 2025-03-17 15:59:53 · 1132 阅读 · 0 评论 -
多任务学习与持续学习微调:深入探索大型语言模型的性能与适应性
多任务学习和持续学习是提升 LLM 微调性能和适应性的关键技术。多任务学习通过共享知识和并行学习多个相关任务来提高模型的泛化能力和效率。持续学习则通过各种策略来克服灾难性遗忘,使得 LLM 能够在不断学习新知识的过程中保持对先前知识的记忆,并适应动态变化的环境。随着 LLM 在实际应用中面临越来越复杂的场景和不断变化的需求,对这两种微调范式的深入研究和有效应用将是未来提升 LLM 智能水平的关键。原创 2025-03-17 11:51:32 · 1227 阅读 · 0 评论 -
LLM 低比特训练后量化技术进展与 DeepSeek FP8 探索
承接我们之前对模型量化技术的探讨,本文将聚焦于近年来在大型语言模型 (LLMs) 低比特训练后量化 (PTQ) 方面取得的进展,并深入研究 DeepSeek 在 FP8 量化上的探索。随着大型语言模型 (LLMs) 在自然语言处理领域取得巨大成功,其庞大的参数规模带来了显著的计算和存储挑战,使得高效部署成为关键问题。低比特量化,尤其是将模型参数量化到 4 比特甚至更低的精度,是实现极致压缩和加速推理的有效手段。然而,传统的 PTQ 方法在应用于 LLMs 并进行低比特量化时,往往会导致不可接受的精度损失。原创 2025-03-15 09:00:00 · 1080 阅读 · 0 评论 -
模型量化 (Model Quantization) 算法 (Model Quantization Algorithms)
它通过在校准数据集上运行模型,收集激活值的浮点分布 ( P_{float}(x) ),然后尝试找到一组量化参数(缩放因子 ( s ) 和零点 ( z )),使得量化后的分布 ( P_{quant}(q) ) 映射回浮点空间后的分布 ( P’_{float}(x’) ) 与原始浮点分布之间的 KL 散度最小。在模型的计算图中,QAT 会在需要进行量化的层(例如,卷积层、全连接层)的权重和激活值路径上插入模拟量化的节点。这些节点负责在训练过程中执行伪量化操作,模拟真实部署时的量化和反量化过程。原创 2025-03-14 11:59:10 · 1563 阅读 · 0 评论 -
大型语言模型与强化学习的融合:迈向通用人工智能的新范式——基于基础复现的实验平台构建
本文深入探讨了大型语言模型(LLM)与强化学习(RL)的融合,分析了LLM如何作为策略教师、奖励函数设计者和环境建模者,赋能RL智能体的学习,并阐述了这种融合对于迈向通用人工智能(AGI)的意义。基于对“Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents”论文的基础复现,我们构建了一个小型的开源实验平台,旨在为研究者和开发者提供便捷的工具,共同探索LLM与RL的更多可能性。原创 2025-03-14 09:57:45 · 602 阅读 · 0 评论 -
大型语言模型与强化学习的融合:迈向通用人工智能的新范式
摘要:本文深入探讨了大型语言模型(LLM)与强化学习(RL)的融合,分析了LLM如何作为策略教师、奖励函数设计者和环境建模者,赋能RL智能体的学习,并阐述了这种融合对于迈向通用人工智能(AGI)的意义。我们回顾了相关研究进展,深入分析了LLM在RL中的作用机制,拓展了LLM与RL结合的应用场景,并探讨了这种融合的挑战与解决方案。最后,我们展望了LLM与RL融合的未来发展方向。原创 2025-03-13 18:10:36 · 522 阅读 · 0 评论 -
基于人类反馈的强化学习微调 (RLHF) (Reinforcement Learning from Human Feedback (RLHF) Fine-tuning)
从 RLHF 的必要性、核心目标, 到完整流程 (SFT 模型训练、奖励模型训练、强化学习训练) 和关键算法 (PPO), 再到 RLHF 面临的挑战和未来展望, 我们对 RLHF 进行了全方位、深层次的剖析。RLHF 并非一蹴而就, 而是一个精细的三阶段训练流程, 每一步都环环相扣, 共同构建了 RLHF 的完整技术体系, 最终打造出更聪明的模型。KL 散度可以衡量两个概率分布的相似程度, KL 散度越大, 说明新旧 Policy 差异越大, 惩罚也越大。原创 2025-03-13 13:59:59 · 1411 阅读 · 0 评论 -
高效微调算法 (Parameter-Efficient Fine-tuning, PEFT) 详解
通常情况下, 只需要存储少量的微调参数 (例如,Adapter 模块参数,Prefix 参数,LoRA 适配器参数), 原始预训练模型参数保持冻结。全参数微调需要更新 PLMs 的所有参数, 对于参数规模巨大的模型 (例如,数十亿、千亿参数), 微调过程需要消耗大量的计算资源 (GPU 算力) 和时间。例如, 对于文本分类任务, 可以将 Prompt 向量拼接在输入文本之前, 引导模型预测文本的类别。, 即模型在适应新任务的同时, 会遗忘在预训练阶段学习到的通用知识, 尤其是在下游任务数据量较小的情况下。原创 2025-03-11 23:07:06 · 1563 阅读 · 0 评论 -
大规模分布式训练技术
本章我们深入探讨了大规模分布式训练技术, 从必要性、数据并行、模型并行、混合并行,到高效训练框架、通信优化和显存优化, 全面介绍了分布式训练的核心概念和关键技术。做完后,大家把答案 (梯度) 交给老师,老师汇总答案,给出最终答案 (同步梯度), 然后每个学生都根据最终答案修改自己的参考书 (更新模型)。例如,机器 1 负责计算模型的前几层,机器 2 负责计算中间几层,机器 3 负责计算最后几层。盖房子 (模型) 分成多个环节: 打地基 (模型前几层),砌墙 (模型中间层),盖屋顶 (模型后几层)。原创 2025-03-09 21:01:15 · 1111 阅读 · 0 评论 -
自监督预训练算法核心原理
本章我们深入探讨了自监督预训练算法的核心原理,详细解析了自监督学习范式,以及 MLM、CLM、PLM、DAE 和对比学习等经典算法。这些算法各有特点,但都巧妙地利用无标签数据自身提供的监督信号,学习到了通用的数据表示,为后续的下游任务奠定了坚实的基础。对比学习 (Contrastive Learning) 是近年来兴起的一种自监督学习方法,在图像、音频、文本等领域都取得了显著的成果。:在许多任务上,使用自监督预训练的模型能够显著提升性能,尤其是在标注数据稀缺的情况下。,然后利用这些伪标签训练模型。原创 2025-03-09 20:19:16 · 1305 阅读 · 0 评论 -
突破注意力瓶颈:MLA、NSA、MoBA、Page Attention 和 FlashAttention 的创新之路
本文将聚焦五种前沿的注意力机制:Multi-Head Latent Atten (MLA)、Nested Sparse Attention (NSA)、Mixture-of-Block-Assignment (MoBA)、Page Attention 和 FlashAttention,深入解析它们的核心思想、运作方式、优缺点以及应用场景,展望注意力机制的未来发展趋势。从内存优化到计算加速,再到超长上下文处理,这些创新技术不断突破传统注意力机制的瓶颈,为构建更强大、更高效、更实用的 AI 模型奠定了坚实基础。原创 2025-03-06 23:04:25 · 1271 阅读 · 1 评论 -
注意力机制进化之路:MHA、MQA、GQA
特别是在处理自然语言、图像识别等复杂任务时,一种名为“注意力机制”的技术脱颖而出,成为提升模型性能的关键。本文将深入浅出地介绍几种主流的注意力机制,包括多头注意力 (MHA)、多查询注意力 (MQA)、分组查询注意力 (GQA),以及最新的 DeepSeek FlashMLA,帮助您理解它们的工作原理、优缺点以及应用场景。多头注意力(Multi-Head Attention, MHA)是 Transformer 模型最初采用的注意力机制,也是后续各种变体的基础。原创 2025-03-06 22:58:12 · 1208 阅读 · 0 评论 -
1.注意力机制
注意力机制笔记原创 2024-01-31 15:10:43 · 972 阅读 · 0 评论 -
2.transformer笔记
transformer学习笔记原创 2024-01-31 13:03:24 · 1469 阅读 · 0 评论