
大模型原理与开发
文章平均质量分 86
夏天又到了
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
为大模型定制的网络爬取工具Crawl4AI简介
大语言模型若想实现语境化推理(即上下文学习),离不开高质量且富含上下文信息的数据支撑,这是其完成问题回答、内容生成以及驱动AI代理等各类任务的重要基石。高效的数据传递机制犹如大语言模型的“信息高速路”,能确保模型在恰当的时机获取精准信息,而这直接关乎其响应的准确性与实用性。数据传递的速度快慢、质量优劣以及结构化程度高低,都对大语言模型输出的实际应用价值起着决定性作用。无论是实时洞察市场动态、精准提炼新闻摘要、准确预报天气,还是深度整合专业领域知识,皆依赖于此。原创 2025-08-01 10:01:17 · 435 阅读 · 0 评论 -
平衡车中的GRPO控制详解
前面14.1节的示例代码中我们对各个步骤进行了定义,首先定义了PolicyNet用于完成对平衡车的控制,而collect_trajectory_vectorized的作用是并行化获取训练数据,根据设定的并行数与训练次数获取多组完整的操作数据。我们在上一节完成了使用平衡车控制GRPO,从这个例子可以看到我们通过设定的相同初始状态一次生成多条轨迹,然后统计这些群体轨迹的平均奖励来计算群体优势,提供更新方向,从而实现策略优化。(1)奖励归一化:将总奖励除以最大步长,使不同长度的轨迹奖励具有可比性。原创 2025-07-21 12:46:21 · 1001 阅读 · 0 评论 -
DeepSeek中的激活函数SwiGLU
在SwiGLU中,原始的输入信号会经过两个不同的线性变换层,其中一个变换的结果会与经过Swish激活函数的另一个变换结果逐元素相乘。具体来说,SwiGLU通过引入一个可调节的参数,结合Swish的非线性和GLU的门控机制,为深度学习模型提供了更强的表达能力和灵活性。当这个参数接近于0时,SwiGLU的输出将更接近于输入,而当参数接近于1时,其输出则更接近于标准的GLU激活函数的输出。总的来说,SwiGLU激活函数通过结合Swish和GLU的特性,为深度学习模型提供了一种新的、高效的激活方式。原创 2025-07-18 09:41:31 · 611 阅读 · 0 评论 -
【新书推荐】《智能运维实践》
智能运维的核心目标包括故障预测、自动化修复、效能优化,最终推动运维从“经验驱动”向“数据驱动”转型,降低非计划停机损失并提升系统可靠性。《智能运维实践》从智能运维基本理论入手,详细讲解智能运维方法和应用案例,帮助读者掌握智能运维的核心技术本书配套示例源码、PPT课件与教学大纲。原创 2025-07-18 09:05:58 · 981 阅读 · 0 评论 -
大模型的后训练与逻辑能力
在人工智能与机器学习领域,模型的后训练阶段不仅是技术流程中的关键环节,更是提升模型性能,尤其是数学逻辑能力的“黄金时期”。这一阶段,通过对已初步训练好的模型进行精细化调优,能够显著增强其处理复杂数学逻辑任务的能力,使模型在诸如数学推理、数据分析、决策优化等场景中展现出更高的智能水平。模型的后训练,本质上是对模型参数进行二次优化,旨在消除初次训练中的偏差与不足,提升模型的泛化能力和逻辑推断精度。原创 2025-07-17 16:34:59 · 1298 阅读 · 0 评论 -
基于GRPO的平衡车自动控制实战
我们知道,基于PPO算法的火箭回收案例非常经典,从其实现过程可以看到,通过对整体的操作描述和控制,我们可以更好地对火箭降落的全过程进行优化。由于篇幅问题,我们直接把这个火箭回收案例代码放在配套资源中,请读者在学习本节之前,先通过运行案例代码弄清楚PPO算法。本节将延续这一自动火箭回收的经典案例,使用新的强化学习算法GRPO来完成一项新的强化学习控制技术。原创 2025-07-16 14:27:53 · 538 阅读 · 0 评论 -
大模型的训练方法SFT与RLHF简介
同时,RLHF的应用场景也将不断拓展,从自然语言处理领域延伸到计算机视觉、机器人控制等多个领域,为人工智能的发展带来新的机遇和挑战。上图展示了大模型在不同阶段的训练过程。其中每个过程中的数据处理,输入-输出对都像是精心设计的教案,为模型提供了明确的学习范例。SFT为模型提供了基础的指令遵循能力,而RLHF则进一步强化了模型对人类偏好的理解和适应能力。它让模型不再是简单地模仿人类行为,而是能够真正理解人类的意图和需求,在各种复杂场景下都能提供高质量、符合预期的输出,推动了大模型技术在更广泛领域的应用和发展。原创 2025-07-15 10:48:15 · 899 阅读 · 0 评论 -
从缓存角度详解MLA注意力模型与代码实现
在深度学习模型日益庞大、复杂的当下,推理空间占用的优化显得尤为关键,而MLA凭借其独特的设计,在这方面表现得极为出色。其通过先进的压缩算法和巧妙的数据处理方式,将原本需要大量空间存储的键(K)和值(V)信息进行高效压缩,从而大幅降低了模型在推理过程中对内存和显存的占用。节省推理空间占用只是MLA带来的基础益处,由此还引发了一系列积极的连锁反应。由于占用空间的减少,模型在推理时的数据读取和传输速度得到了显著提升。原创 2025-07-15 08:52:53 · 1095 阅读 · 0 评论 -
GRPO算法详解
传统的策略优化方法,比如PPO(Proximal Policy Optimization,近端策略优化),通常会用一个单独的价值模型来估算某个状态的价值。接着,它会利用广义优势估计(GAE)来计算优势值,并基于这些优势来逐步更新策略模型。在这个过程中,策略模型和价值模型是同步进行迭代的,这样做的目的是不断提升价值模型的估算准确度,让策略优化更加有效。不过,GRPO(这里可以理解为一种改进或变体的策略优化方法)就采取了不一样的做法。原创 2025-07-14 10:56:50 · 1325 阅读 · 0 评论 -
减少空间占用的生成模型实战与推理资源消耗量化对比之二
换算后可知,这大约占用了0.7GB的显存。下面我们采用同样的长度在带有缓存的生成模型上演示推理资源的占用,读者可以首先完成短文本的生成并对比生成质量,之后使用长文本检测生成的资源占用。读者可以自行运行代码查看生成的文本内容。下面我们继续查看当升级了文本长度后的推理资源耗费,简单地说,我们可以通过增加文本生成的文本长度,在一个较长的生成长度要求下对结果进行比对。可以看到,这里我们仅仅在模型的初始化阶段添加了.half()函数,即可完成模型的半精度设置,而从模型运行结果上来看,可以极大地减少缓存的占用。原创 2025-07-14 10:35:33 · 817 阅读 · 0 评论 -
大模型思维链详解
随着人工智能技术的迅猛发展,语言模型在处理复杂任务方面的能力正以前所未有的速度提升。其中,思维链技术作为一种极具创新性的方法,正逐步彰显出其在增强模型推理能力方面的巨大潜力。本小节将深入剖析DeepSeek思维链技术的内涵,包括其定义、触发方式、优缺点,并通过具体示例展示其在实际应用中的卓越表现。思维链是一种借助提示大语言模型(LLM)生成中间推理步骤的技术,旨在提高模型在复杂任务(尤其是涉及逻辑、算术推理的任务)上的表现。原创 2025-07-10 14:53:59 · 1475 阅读 · 0 评论 -
减少空间占用的生成模型实战与推理资源消耗量化对比
通过这样的实证研究,我们不仅可以更深入地理解缓存机制在自回归模型中的作用,还能为相关领域的研究和实践提供有价值的经验和启示。这是因为缓存机制主要影响的是模型的推理阶段,而非训练阶段。在训练过程中,模型需要学习的是如何生成合理的序列,而缓存的引入并不会改变这一学习目标。值得注意的是,虽然在训练阶段缓存并不直接参与,但考虑到模型在实际应用中的推理效率,我们在设计模型结构时,仍然需要预留出与缓存机制相兼容的接口。这样做的好处是,一旦模型训练完成,我们可以轻松地整合缓存功能,从而在实际应用中实现更高效的推理。原创 2025-07-09 19:03:11 · 299 阅读 · 0 评论 -
基于DeepSeek的美妆Agent开发
作为一名极具责任感的现代青年,在约会时精心雕琢着装风格,绝非仅仅为了展现个人的时尚品位,它更深层次的意义在于,这是对约会对象细致入微的尊重与体贴。然而,如何精准拿捏着装风格的分寸,使之既符合自身气质,又能契合约会氛围,无疑是一大挑战。为此,我们将巧妙借助外部资源,运用高效且精准的信息检索技术,广泛搜集关键数据,同时融合个人的审美见解与缜密的逻辑分析能力,从而打造出令人眼前一亮的约会装扮。自动化获取天气数据如图5-3所示。图5-3 自动化获取天气数据。原创 2025-07-08 10:59:03 · 945 阅读 · 0 评论 -
从推理角度详解MLA注意力模型与代码实现
为了进一步优化这一流程,未来的研究可以探索更高效的存储解决方案,例如利用更快的存储介质或者优化数据访问模式,以减少访存延迟,从而进一步提高KV Cache机制的整体性能。我们在前面章节实现了经典生成模型,从推理输出上来看,在推理阶段,由于模型由多层Transformers堆叠而成,因此主要的计算负担落在了注意力模型内部,涉及MHA和前馈神经网络(或MoE)等核心操作。在本节中,我们将从缓存优化的独特视角出发,深入剖析注意力模型在推理阶段的缓存占用情况,并通过严谨的量化计算,为读者呈现清晰的数据对比和分析。原创 2025-07-08 10:52:49 · 651 阅读 · 0 评论 -
DeepSeek工具使用详解
当我们回到DeepSeek调用工具的问题时,面临的挑战是如何让这个大模型也具备这样的决策能力,即根据给定的任务,它能知道应当调用哪些工具。在这份文档中,我们详细描述每个工具API的功能、参数以及返回值,告诉大语言模型在何时、何地可以调用这些API,并且当API被调用后,返回相应的API的JSON对象。具体来看,在代码的执行部分,用户提出了一个关于上海天气的问题。因此,通过对工具API中的描述进行甄别,从而判定使用哪一个最合适的工具,加上合理的引导和训练,可以使大模型更加智能化,从而完成对工具的使用。原创 2025-07-07 08:13:49 · 1141 阅读 · 0 评论 -
基于DeepSeek的体重管理Agent开发
在快节奏的现代生活中,人们不仅要在工作与约会之间找到平衡,更需要时刻关注并维护彼此之间的交互。通过我们前期的技术探索与实践过程,我们成功构建了一种基于图形用户界面(GUI)的自动化智能体,该智能体能够实现对浏览器操作的全流程精准复刻。这一方案主要依赖于先进的图像识别技术和控件操作逻辑,其显著优势在于无须对现有软件界面进行任何改造,即可完美模拟人工操作流程,展现出极高的灵活性与适应性。然而,随着应用场景的不断拓展,特别是当面对高频次、标准化的数据交互需求时,这种“像素级模拟”方案逐渐显现出其效率上的局限性。原创 2025-07-05 18:11:35 · 881 阅读 · 0 评论 -
减少空间占用的自回归模型代码实现与详解
在上一节()中,我们详细探讨了自回归模型的计算负担,以及如何通过缓存优化技术来减轻这种负担。显然,在模型计算过程中,若使用完整序列,会显著增加计算量。而缓存技术的引入,正是为了解决这个问题。接下来,我们将通过实现带有缓存功能的经典自回归模型——GPT-2,来具体展示缓存优化带来的效果。我们将编写GPT-2模型的完整代码,并在使用和未使用缓存技术的情况下,分别进行序列生成测试。通过对比实验,我们可以直观地看到缓存技术在减少内存占用和提高计算效率方面的显著效果。原创 2025-07-04 11:09:12 · 854 阅读 · 0 评论 -
自回归生成模型中的推理加速详解
在上一节中,我们详细讲解了自回归生成模型的原理与训练过程,揭示了训练环节的核心重要性。然而,在生成模型的全面实践中,更加关键的一步在于如何精妙地运用这些训练成熟的模型去执行实际的推理任务。而在此过程中,一个至关重要的考量因素,便是如何高效利用现有的设备和资源,以最优化的方式进行模型推理。在本节中,我们将聚焦于生成模型中的推理加速内容,深入探讨如何通过技术手段提升模型推理的速度与效率。原创 2025-07-03 19:05:15 · 2107 阅读 · 0 评论 -
自回归生成模型中的资源计算
在自回归生成过程中,每一次推理步骤仅生成一个token,随后将这个新生成的token拼接到当前的输入序列末尾。紧接着,基于更新后的序列,模型进行下一次推理,如此循环往复,直至生成特定的结束标志(如eos,即end of sentence)或达到预设的最大生成长度。这种逐步生成的方式使得自回归模型能够灵活地处理长文本生成任务。通过逐步构建序列,模型能够考虑之前生成的上下文信息,从而生成更加连贯和符合逻辑的文本。然而,随着生成序列的不断增长,计算量和内存消耗也会相应增加,这对模型的推理效率和性能提出了挑战。原创 2025-07-03 19:00:34 · 903 阅读 · 0 评论 -
多模态DeepSeek大模型的本地化部署
在本例中,我们定义了model_path = "deepseek-ai/deepseek-vl2-tiny",即使用一个迷你版本的DeepSeek-VL2进行模型设计,由于模型的权重和编码器需要从网上下载,对于下载有困难的读者,我们在配套代码库中准备了下载好的权重与文件,读者可以直接更改model_path地址到本地。对于flash_attn的安装,Windows版本的flash_attn无法直接安装,读者可以使用本书配套代码库中作者编译好的flash_attn安装,从而完成本地化的部署。原创 2025-07-02 16:52:10 · 311 阅读 · 0 评论 -
基于在线DeepSeek大模型的离线蒸馏
在上一个博文中,我们讲解了模型蒸馏的基本概念,了解到对大模型数据进行蒸馏并提供给学生模型进行训练,是一个很好的解决办法。本节将演示从数据获取开始,通过在线DeepSeek蒸馏获得一整套完整的mini蒸馏集的过程。原创 2025-07-02 16:44:57 · 800 阅读 · 0 评论 -
在线MCP服务的连接和使用
MCP作为一种具有开创性的开放协议,其核心目标在于标准化人工智能模型与外部数据源、工具之间的交互方式。在当今复杂多变的人工智能应用环境中,模型需要与各种不同类型的数据源和工具进行交互,以实现更加智能、高效的任务处理。通过MCP,大模型可以轻松地与各种专业工具进行连接和通信,无须进行复杂的接口开发和数据转换,从而大大提高了开发效率和应用效果。同时,MCP的标准化特性也保证了不同模型、不同工具之间的兼容性和互操作性,为人工智能技术的广泛应用和深入发展奠定了坚实的基础。原创 2025-07-01 14:18:07 · 266 阅读 · 0 评论 -
什么是大模型蒸馏
在自然语言处理领域,LLM因其强大的语言理解和生成能力而备受关注。然而,由于参数规模较大,商业LLM的使用成本较高,而且数据隐私和安全问题也难以解决。相比之下,开源LLM模型虽然参数规模较小,但性能较弱。知识蒸馏(Knowledge Distillation,KD)技术为解决这个问题提供了新思路。知识蒸馏利用商业LLM的高性能,将其知识“蒸馏”到更小的开源模型中,从而实现高性能和低成本。原创 2025-07-01 12:28:29 · 465 阅读 · 0 评论 -
大模型在线MCP服务器搭建
我们通过MCP官方提供的配置可以完成MCP服务器的搭建,但是对于新手来说,需要了解和掌握服务器的配置,并对文件的命名与代码的编写要求有一定的了解。为了方便使用MCP在线服务器的搭建,我们可以使用现成的Python库来完成MCP服务器的搭建。程序代码较为简单,整体逻辑就是首先定义服务器的名称与服务器描述,之后将不同的工具函数进行注册,并提供访问地址和端口,最后将MCP服务器挂载和启动。可以看到此时我们已经正常启动了MCP服务,后续就可以继续完成MCP客户端的编写了。图6-4 MCP服务器的启动。原创 2025-06-26 18:27:32 · 382 阅读 · 0 评论 -
大模型MCP协议详解
在这些情况下,仅仅依靠大模型自身的能力是远远不够的,我们额外需要一种能够使得大模型直接、高效调用这些专业工具的方法,而MCP正是为解决这一问题而诞生的。传统的Function Calling往往呈现出碎片化的特点,不同的AI模型和应用可能采用不同的调用方式,这使得开发者在面对不同的项目时,需要不断地重新学习和适应,极大地增加了开发的难度和成本。同时,MCP凭借其标准化的交互协议、核心组件、动态发现机制等优势,解决了传统AI应用中的诸多问题,为AI技术的发展和应用提供了强大的支持。原创 2025-06-26 18:23:07 · 1073 阅读 · 0 评论 -
DeepSeek-Reasoner推理模型示例
值得注意的是,为了保持对话的连贯性和简洁性,在下一轮对话中,之前轮次输出的思维链内容并不会被直接拼接到上下文中。这一模型以其高效和稳定的性能,为我们的交流提供了坚实的基础。然而,技术的探索永无止境,DeepSeek团队在此基础上更进一步,推出了一种创新的输出方案—— DeepSeek-Reasoner推理模型,为我们与大模型的对话体验增添了新的维度。从上面结果可以看到,相对于原有的输出,在问题的解答上推理模型使用了更多的推理过程与解答,并且对结果进行更细密的分析,从而获得对逻辑和推理步骤进行说明的结果。原创 2025-06-25 17:12:16 · 535 阅读 · 0 评论 -
通过Prompt提示构建思维链
例如,在处理一道复杂的数学证明题时,它能够识别出题目中的已知条件、未知结论以及它们之间的逻辑关系,将证明过程拆解为一系列合理的推理步骤。对于不同类型的问题,我们只需要根据问题的特点,设计相应的步骤提示,就可以引导模型进行有效的求解。例如,在处理跨领域的复杂问题时,它能够融合不同领域的知识,提出新颖的解决方案,为模型的推理能力注入新的活力。基于这种思维链的推理过程,DeepSeek提出了一种新的推理模型——DeepSeek-Reasoner,其作用犹如一把精准的手术刀,在人工智能的复杂领域中发挥着关键作用。原创 2025-06-24 18:43:54 · 1066 阅读 · 0 评论 -
DeepSeek中的提示库及其用法示例
对于初学者而言,库中配备了详细的基础提示词示例和清晰的使用说明,就像是一位耐心的导师,手把手地引导他们熟悉DeepSeek模型的基本操作和提示词的使用方法,帮助他们快速上手,迈出探索人工智能世界的第一步。这个提示库就像一座知识的宝库,汇聚了众多经过精心设计和实践验证的提示词样例。为了深入探索DeepSeek提示词样例的丰富内涵,充分挖掘其背后潜藏的无限可能,同时致力于为用户打造更为卓越、便捷且高效的使用体验,DeepSeek官网的API文档匠心独运地为用户呈上了一个专业且全面的专用提示库,如图3-1所示。原创 2025-06-23 18:00:54 · 787 阅读 · 0 评论 -
《DeepSeek原生应用与智能体开发实践》案例重现
读者重现本书案例博文。原创 2025-06-22 22:11:53 · 233 阅读 · 0 评论 -
使用火山方舟创建DeepSeek大模型接入点的方法
如图2-6所示,我们在页面左下角依次单击“系统管理”→“开通管理”菜单,打开“开通管理”页面,在TT大语言模型下点击查询图标题,查询关键字“DeepSeek”,页面上会出现平台支持的DeepSeek大模型。登录火山引擎官网后,如图2-4所示,通过搜索“火山方舟”(或者点击页面上方导航菜单中的“产品”,打开“精选产品”页面),单机“火山方舟”,再单击“控制台”按钮进入“火山方舟管理控制台”页面。接着通过“火山方舟管理控制台”页面左侧导航栏找到“在线推理”菜单项,打开“在线推理”页面,如图2-7所示。原创 2025-06-20 10:13:19 · 554 阅读 · 0 评论 -
输出JSON格式的DeepSeek在线调用示例
在许多应用场景中,用户需要模型严格按照JSON格式输出数据,以确保输出的结构化和标准化,便于后续逻辑处理和解析。为了满足这一需求,DeepSeek提供了强大的JSON Output 功能,确保模型输出的字符串始终是合法的JSON格式。我们给出一个DeepSeek官方提供的JSON结构化数据处理代码,如图2-26所示。注意:代码中的api_key要改成你自己的授权码。图2-26 JSON结构化数据处理代码。原创 2025-06-20 08:53:54 · 352 阅读 · 0 评论 -
DeepSeek简介与免费使用
DeepSeek官网是提供大模型服务的开放平台,读者可以通过注册获取API调用服务,首先在DeepSeek官网首页进行注册,如图2-23所示。读者可以根据自己需要的方式进行注册,登录后即可看到用户的用量信息(tokens),如图2-24所示。DeepSeek拥有一套全新的大模型调用方法,既可以通过对话的方式开启大模型的对话,也可以使用API调用的形式来使用大模型。DeepSeek对话窗口如图2-22所示。接下来,读者可以单击左侧菜单中的API keys创建自己的API key,如图2-25所示。原创 2025-06-19 15:09:58 · 709 阅读 · 0 评论 -
【新书介绍】《DeepSeek原生应用与智能体开发实践》
本书围绕DeepSeek大模型应用开发展开,深度融合技术创新与工程实践,内容覆盖大模型应用开发(在线调用、提示词、推理、Agent、工具调用、MCP微调、蒸馏、后训练、RAG)技术栈及其案例。书中原理与案例相融合,注重培养读者的大模型原生应用与智能体开发能力,并构建从理论到落地的完整知识体系。本书配套示例源码、PPT课件、配图PDF文件、读者微信交流群。原创 2025-06-18 08:30:00 · 1339 阅读 · 2 评论 -
【图书介绍】《从零开始大模型开发与微调 :基于PyTorch与ChatGLM》
他们的主要工作就是利用获得的数据集设计不同的人工神经模型,利用人工神经网络强大的学习能力提取和挖掘数据集中包含的潜在信息,编写相应的PyTorch程序对数据进行处理,对其价值进行进一步开发,为商业机会的获取、管理模式的创新、决策的制定提供相应的支持。第2章介绍PyTorch 2.0的安装和常用的类库。第1章介绍人工智能的基本内容,初步介绍深度学习应用与大模型的发展方向,介绍最强的人工智能大模型—清华大学ChatGLM的应用前景,旨在说明使用深度学习和人工智能实现大模型是未来科技的发展方向,也是必然趋势。原创 2023-10-26 08:48:01 · 1577 阅读 · 0 评论 -
使用预训练模型的视频分类
torchvision是PyTorch的一个图形图像库,专门服务于PyTorch深度学习框架,用于构建计算机视觉模型。它提供了丰富的功能和工具,帮助开发人员和研究人员轻松处理图像数据,从而加速计算机视觉应用的开发和部署。在torchvision库中,有几个核心组件值得一提。首先是torchvision.datasets,这个模块包含了许多加载数据的函数以及常用的数据集接口,如MNIST、CIFAR10、ImageNet等,使得数据准备变得简单快捷。原创 2025-04-17 18:39:20 · 1277 阅读 · 0 评论 -
DeepSeek大模型微调技术PEFT与LoRA详解
DeepSeek在文本生成、信息检索和智能问答等多个领域都展现出了令人瞩目的性能,这得益于其精心设计的初始训练过程。然而,不容忽视的是,尽管DeepSeek的架构设计能够在一定程度上减少训练成本,但要从零开始训练一个特定模型,仍然需要巨大的计算资源和庞大的数据集,这对于普通人来说无疑是一个沉重的负担。这种情况也使得一些研究人员难以复现和验证之前的研究成果,从而影响了科研的进展和可信度。原创 2025-04-16 13:43:00 · 1031 阅读 · 0 评论 -
旅游特种兵迪士尼大作战:DeepSeek高精准路径优化
随着假期的脚步日渐临近,环球影城等备受瞩目的主题游乐场,已然成为大人与孩子们心中不可或缺的节日狂欢圣地。然而,随之而来的庞大客流,却总让无数游客在欢乐的门槛前止步,那长长的排队队伍,无疑成为了他们畅享假日时光的最大阻碍。游乐场内项目琳琅满目,每一个都散发着诱人的魅力,但时间却似乎总是不够用。如何在这人潮汹涌、时间紧迫的环境下,巧妙规划行程,确保每一次的游玩都能获得最大的快乐回报,这无疑是对每一位追求极限旅游体验的“特种兵”游客的严峻考验。是选择那些刺激惊险的过山车,还是沉浸于梦幻般的童话世界?原创 2025-04-15 09:31:07 · 932 阅读 · 0 评论 -
注意力视频分类实战
上一节完成了视频数据集的准备,为接下来的实战打下了坚实的基础。本节中,我们将进一步探索,设计一种基于注意力架构的视频分类实战方案,并借助上一节自定义的数据准备形式,对视频进行精准分类。在具体实现上,对于注意力模型而言,关键的一步在于如何将原始视频数据转换成一种模型能够高效处理的嵌入表示。这种嵌入表示不仅需要捕捉视频中的时序信息,还要能够突出关键帧和特征,以供注意力机制进行选择和聚焦。为了达到这一目的,我们采用先进的深度学习技术,结合视频数据的特性来构建专门的嵌入层。原创 2025-04-10 16:22:30 · 699 阅读 · 0 评论 -
智能化DeepSeek工具调用详解
相对于只能完成普通文本任务的大模型,DeepSeek一个激动人心的功能是可以自主调用外部工具函数,以自主意识的形式借用工具,完成使用者发布的命令。这意味着DeepSeek不再仅仅是一个被动的执行者,而是成为了一个具有主动性的智能助手。DeepSeek的Function calling功能是一项具有划时代意义的进步。这一功能的实现,使得DeepSeek不仅仅局限于自身数据库知识的回答,而是跃进到了一个全新的层次—调用外部函数,其调用流程如图7-7所示。原创 2025-04-09 08:43:56 · 1091 阅读 · 0 评论 -
图像特征压缩的多种实现
图像特征token作为图文多模态特征之一,在视觉与语言的联合表示学习中扮演着至关重要的角色。它们能够有效地捕捉图像的局部细节和全局信息,为跨模态检索、视觉问答以及图像描述生成等任务提供了丰富的特征支持。在图像特征token的研究中,我们不断探索如何更有效地提取、表示和利用这些特征。从最初的底层视觉特征,如边缘、纹理和颜色,到后来的高层语义特征,如物体、场景和动作,图像特征token的表达能力逐渐增强,为模型提供了更丰富和更准确的输入信息。原创 2025-04-08 09:05:16 · 831 阅读 · 0 评论