自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(162)
  • 收藏
  • 关注

原创 NVIDIA AI加速实战营之(3)——TensorRT-LLM 模型自定义与实现

在深度学习领域,大型语言模型(LLMs)因其强大的自然语言处理能力而备受关注。然而,这些模型的推理效率往往受限于计算资源。NVIDIA的TensorRT-LLM库提供了一种解决方案,通过优化LLMs在NVIDIA GPU上的推理性能,使得这些模型能够更快地响应。本文将详细介绍如何自定义和实现TensorRT-LLM模型的过程,NVIDIA的资深工程师讲解具体实现自定义的课程。我们来实现最简单的自定义模型:创建自定义模型目录:定义模型类:在中注册模型:创建配置文件:构建模型引擎: 这一步

2024-11-27 00:00:00 3364

原创 [特殊字符] TTS格局重塑!B站推出Index-TTS,速度、音质、情感表达全维度领先

中文中大量存在多音字(如“长”可读作“zhǎng”或“cháng”),其正确发音高度依赖上下文,传统TTS系统常因语义理解不足而误读,影响语音自然度与可懂度。(卷积增强型 Transformer)作为骨干网络,融合卷积层的局部感知能力与自注意力机制的长程依赖建模优势,能够高效捕捉语音信号在时间与频域上的复杂特征,为高质量语音合成奠定基础。若已标注,则优先采用用户指定发音,兼顾自动化与精准控制。:将提取的音频特征与文本及拼音编码进行多层次对齐与融合,作为扩散模型的强引导条件,实现个性化语音的高保真重建。

2025-08-22 23:39:47 555

原创 MCP 与 Function Calling 打开真实世界的两种“母体”方式

本文将以通俗易懂的方式,带你深入了解这两项核心技术的工作原理、各自特点以及在实际场景中的应用价值,助你全面掌握现代AI系统“动手办事”的背后逻辑。两者的融合,正在催生一个更智能、更灵活、更无缝融入人类生活的AI新时代。本文将以通俗易懂的方式,深入解析MCP(模型调用协议)与函数调用的核心概念,比较二者的异同,并探讨它们在实际应用中的典型场景。试想一下,如果你的AI助手只能基于训练时学到的信息回答问题,却无法告诉你“今天北京的天气如何”或“帮我订一间下周的餐厅”,那它再聪明也显得“束手无策”。

2025-08-22 23:00:04 386

原创 从零到一:RAGFlow 本地部署全攻略

今天的分享,将带你一步步完成这款工具的本地部署。

2025-08-21 23:51:24 253

原创 零边际代码:当 AI 把软件价格打穿地心,商业宇宙如何重启?

过去搭平台得砸大钱、熬年头;如今写软件便宜了,搭平台也快得多。客户不想守着十几套工具,只想一个界面全搞定。功能差距越来越小,能把它们拼在一起,才是真正的卖点。

2025-08-21 15:02:09 1109

原创 AI on Mac, Your Way!全本地化智能代理,隐私与性能兼得

2025 年 AI Agent 全面爆发,macOS 阵营杀出一匹黑马——开源新锐 Cua,让果粉也沸腾!由 trycua 团队开发的 Cua,是一款专为 macOS 打造的开源 AI Agent 框架,正重新定义计算机自动化操作的边界。它基于 Apple 原生的 Virtualization.Framework 构建,充分利用 Apple Silicon 芯片的高性能架构,支持在本地高效创建和运行 macOS 与 Linux 虚拟机。Cua 的核心创新在于将 AI 代理深度集成到虚拟化环境中,使 AI 能

2025-08-20 11:49:35 1151

原创 本地部署的终极多面手:Qwen2.5-Omni-3B,视频剪、音频混、图像生、文本写全搞定

综上所述,Qwen2.5-Omni-3B 凭借其轻量高效、多模态融合与长上下文理解等优势,已在多个垂直领域展现出广泛的应用前景,助力智能化服务的快速部署与创新落地。

2025-08-20 11:16:11 864

原创 无缝衔接 20+ 大模型,私有文档秒变精准答案引擎

把「找答案」升级为「知识导航」。在向量、全文、混合检索之外,新增 GraphRAG:把企业知识先建成一张实体-关系网,再用生成式 AI 导航。• 复杂提问一次命中:跨实体、跨层级、跨文档的关联秒级定位。• 准确率再跃升:图谱结构消除歧义,回答不再“张冠李戴”。一句话,GraphRAG = 知识图谱 × 检索增强,专为数据密集场景而生。

2025-08-19 18:04:28 907

原创 Meta视觉引领潮流:DINOv3开源模型震撼发布

这表明,通过合理的设计,patch-level特征的一致性与判别性全局特征的学习可以有效兼顾。此外,为了便于社区使用和部署,Meta通过蒸馏70亿参数的原生DINOv3模型,构建了一个开发环境友好的v3模型矩阵,包括Vision Transformer(ViT)的Small、Base和Large版本,以及基于ConvNeXt的架构。具体而言,随着训练深入,原本应具有明确空间对应关系的图像块特征,出现了非相关区域与参考区域相似度过高的问题,破坏了特征的空间一致性,进而削弱了模型在密集预测任务中的表现。

2025-08-19 17:02:41 979

原创 我的一周年—2024-0818~2025-0818+创作纪念日

时光飞逝,转眼间1年过去了,我成为一名CSDN开发创作者已经有一段时间了。在这个特殊的日子里,我想和大家分享一下我的创作历程,包括初心、收获、日常、成就以及对未来的憧憬和无限的可能得创新未来。

2025-08-18 19:08:13 302

原创 GPU 调度的终极对决?NVIDIA KAI-Scheduler 与 HAMi 的技术路线全景解析

如果你追求。

2025-08-18 17:30:02 916

原创 私人AI搜索新突破:3步本地部署Dify+Ollama+QwQ,搜索能力MAX

安装 Dify 简单的方式就是git clone,复制其github地址github.com/langgenius/dify,找个文件夹git cloen就:。Dify的插件功能比起繁琐的MCP服务器好用多了,直接在dify页面中插件,搜索google,直接安装并填入刚获得的谷歌搜索API密钥。别担心,最后这一步超简单——只要打开 Dify 的工作室,进入 Agent 页面,点一下“创建空白应用”,就搞定啦!点开dify页面右上角的用户图标中的设置。在模型供应商ollama中点添加模型。

2025-08-17 15:19:21 437

原创 视觉AI大爆炸!自回归视频生成模型震撼开源,开启创作新时代

每个片段都会独立完成完整的去噪操作,一旦当前片段的去噪效果达到设定的阈值,系统便会立刻开始生成下一个片段。:用户可基于已生成或上传的视频片段,无缝续接新的内容,系统自动完成对齐与融合,无需手动剪辑。Sand AI正式发布MAGI-1——全球首个基于自回归架构的开源视频生成大模型,标志着AI视频生成迈入“连续、可控、可扩展”的新纪元。这一系列技术创新,使MAGI-1在保证高保真视频输出的同时,具备出色的可扩展性与部署灵活性,为未来AI视频应用开辟了广阔空间。现在,代码已开源,模型可下载,未来由你定义。

2025-08-17 12:53:53 621

原创 元宇宙新动力!NVIDIA Omniverse 部署指南

该平台融合了 Pixar 开发的 OpenUSD 强大的场景描述与数据交换能力,以及 NVIDIA RTX 实时路径追踪技术在图形渲染与物理仿真方面的卓越性能,助力开发者打造可扩展、跨领域的工业级 3D 工作流解决方案。此次重构不仅提升了系统的稳定性与可维护性,还优化了接口设计,增强了错误处理机制,显著改善了扩展之间的兼容性与整体运行的可靠性,为开发者提供了更坚实、更清晰的开发基础。值得注意的是,自 Kit 106 版本起,Omniverse 不再提供传统的一体化应用程序安装包。并回车,打开命令提示符。

2025-08-16 23:26:50 532

原创 字节黑科技:仅凭“音频+1张图”,数字人精细度狂飙20%,真人动画复刻出神入化!

沿途风景随着视频生成技术的快速发展,人体图像动画逐渐成为研究热点,在电影制作、广告传播以及电子游戏等领域展现出广阔的应用前景。然而,当前方法仍主要停留在粗粒度的动作控制层面,在实现精细动作还原(如细微的眨眼、唇部颤动)、适应多尺度输入(如肖像、上半身、全身)以及维持长时间序列中的视觉一致性(如遮挡区域的衣物或肢体连贯性)等方面仍面临显著挑战22222为了应对这些复杂场景,作者提出了一个基于DiT框架的算法——DreamActor-M1。该算法通过混合引导技术,实现了整体、富有表现力且鲁棒的人体图像动画。

2025-08-16 19:26:29 1322

原创 n8n 进化完成:你的工作流,现在由一群AI共同执行

社交媒体发布Agent,把图文打包,现在就发,记得选流量高峰时段。整个过程,**没有复制粘贴,没有人工中转,也没有流程断点**。每一个Agent各司其职,而主代理则像一位经验丰富的总监,全程掌控节奏、协调资源、确保交付。看到了吗?AI 不再是孤军奋战的“功能模块”,而是被赋予了角色与协作逻辑的“团队成员”。任务自动拆解、动态调度、链式执行——这才是真正意义上的 --Agentic Workflow(智能代理工作流)--。一次指令,全链响应;一人指挥,百机协同。

2025-08-15 21:20:34 923

原创 250台虚拟机齐上阵,Manus发布Wide Research开启智能体研究新纪元

Manus推出了一项名为Wide Research的创新功能,彻底改变了传统AI研究的模式。该功能通过调用多个AI智能体并行协作来处理任务,以“广度研究”为核心,能够快速应对大规模任务,标志着AI从单一助手向“数字军团”转型。Wide Research在处理速度和信息广度上表现出色,但同时也面临着技术挑战和成本高昂的问题。关键点如下:- Wide Research通过调用上百个AI智能体并行处理任务,显著提升了效率。

2025-08-15 19:19:08 895

原创 RAG的视觉知识之旅:图像也能加入知识库啦!

它不仅支持**长上下文嵌入**(最高可达8192个token),能够更完整地保留复杂文档的语义结构,还首次引入了**多模态嵌入能力**,可统一处理文本与图像内容,实现跨模态的语义对齐与联合检索。本次测试中,我们将它与 **Gemini Flash 2.5** 结合,构建一个增强型的 RAG 系统,探索其在复杂查询理解、多模态内容处理以及长上下文场景下的实际表现。通过计算问题嵌入与图像嵌入之间的语义相似度,系统从数据库中检索出与问题最相关的图像内容,实现“以文搜图”的精准定位。

2025-08-14 22:34:49 626

原创 GraphRAG:AI理解复杂知识的未知领域,开启探索之旅

GraphRAG(图检索增强生成)通过融合知识图谱与检索增强生成技术,彻底革新了大语言模型处理专业领域知识的方式。与传统的RAG仅依赖文本片段匹配不同,GraphRAG首先将原始文本转化为结构化的知识图谱,精准刻画实体之间的语义关系。在此基础上,系统通过图遍历算法和多跳推理机制,动态检索与问题相关的知识子图,捕捉深层次的关联信息。最终,模型在保留图结构语义的前提下生成逻辑严密、上下连贯的回答。不仅能揭示概念之间的隐含联系,还能支持复杂的多步推理过程,有效应对需跨多个知识点推导的难题。

2025-08-14 22:05:01 841

原创 R1 遭遇劲敌:中国秘密 AI 团队 32B 稠密模型 AM-Thinking-v1 强势来袭

而这款模型背后的团队,是国内一个从未对外公开过的研究团队——A-M-team。A-M-team 却选择了与众不同的道路,专注于 32B 这一“中等规模模型”的参数区间,而这一选择背后有着清晰且深刻的考量:他们致力于探寻一条在计算资源有限、数据完全开源的条件下,依然能够实现卓越推理能力的新路径。令人震惊的是,这款中等规模的稠密模型,在多项关键推理评估中战胜了 DeepSeek-R1,并且其表现与超大规模的 MoE 模型 Qwen3-235B-A22B、Seed1.5-Thinking 不相上下。

2025-08-12 14:08:05 1127

原创 gpt-oss-120b 模型:笔记本上的智能“奇幻之旅”

所以,这里推荐将显存分配设为 64GB,能保证完美运行。

2025-08-12 13:42:39 385

原创 从源码看 Coze:Agent 的三大支柱是如何构建的?

此前已经开源的开发框架 Eino,加上近期开源的扣子开发平台(Coze Studio)和扣子罗盘(Coze Loop),扣子把 Agent 从开发、评测到运维的完整链路都开源了,一步到位。今年 Agent 有多火,大家有目共睹。爆款 Agent 层出不穷,各大厂商也纷纷发布 MCP 协议支持,种种迹象表明,Agent 正从“炫技玩具”变成能落地的应用工具。在这一关键时期,要让 Agent 成熟,仅靠一家厂商是不够的。而开源,正是破局的关键之一。

2025-08-11 17:30:54 602

原创 从 CRUD 到量子并行计算,我的 几个小时奇妙之旅

这种现象就是所谓的“量子纠缠”。的惊艳之处:它利用量子叠加态,让系统“同时探索”f(0) 和 f(1) 的整体行为,再通过量子干涉提取出函数的全局性质——是“一致”还是“不同”。从逻辑上讲,这就是“量子坍缩”:我们测量了一个 Qubit 的值,然后根据这个值来调整整个量子系统的状态向量,把所有和观测值不一致的可能性都去掉,得到一个和当前测量结果相匹配的新状态。比如,如果你只测了 f(0)=0 ,你根本无法判断它是“恒为 0”的常数函数,还是“输入输出相同”的恒等函数——只有看到两个输出,才能下结论。

2025-08-11 16:16:19 1506

原创 算力即权力!一文掌握大模型GPU选卡的黄金法则

使用场景 | 推荐 GPU | 特点说明 || 大模型训练 | H200、B200、H100、A100 | 高算力、大显存、高带宽 || 中小模型训练 | A6000、V100 | 成本可控,适合本地化训练 |

2025-08-06 23:59:50 706

原创 阿里开源 Qwen-Image,解锁免费版 GPT-4o 吉卜力,中文领域最佳模型震撼登场

阿里在昨日凌晨,阿里巴巴达摩院宣布开源其最新研发的文生图模型 Qwen-Image。该模型拥有 200 亿参数,基于 MMDiT 架构构建,具备强大的图片生成能力,能够生成包括写实、动漫、赛博朋克、科幻、极简、复古、超现实、水墨等在内的几十种风格类型的图片。此外,它还支持对图片进行风格迁移、增删改、细节增强以及文字编辑等操作,甚至可以对人物姿态进行调整等常规操作。尤为值得一提的是,Qwen-Image 还能够生成类似于 OpenAI 的 GPT-4o 那种在全网爆火的吉卜力风格图片。

2025-08-06 10:13:58 478

原创 AI也开始“推理”了?图像生成新范式DPO vs GRPO,这场较量颠覆你的认知

近年来,强化学习(Reinforcement Learning)在增强大语言模型(LLM)推理能力方面取得了显著进展,尤其是在激发“思维链”(Chain of Thought, CoT)推理方面展现出巨大潜力。如今,这一范式正突破文本边界,向图像生成领域延伸。当图像生成被重新构视为一个序列化决策与逐步推理的过程,传统用于对齐语言模型的优化方法——如 DPO(直接偏好优化)与 GRPO(组相对策略优化)——能否在视觉生成任务中延续辉煌?二者在这一全新战场上的表现又将如何分庭抗礼?图1是论文标题。

2025-08-05 18:05:58 656

原创 企业 IT 的终极隐私外挂:Windows 有组策略,macOS 有 MDM,但谁更听话

相比之下,Windows 的数据收集机制覆盖更广,且部分诊断数据属于系统运行所依赖的“必需遥测”,即使用户在隐私设置中选择最低级别,仍会有一定量的信息被强制上传。更重要的是,我们还可以采取具体措施,关闭最基本的遥测和数据收集功能,在保障系统正常运行的同时,更好地掌控个人隐私。如果你希望进一步加强对 Windows 系统的隐私控制,彻底禁用其遥测和数据上报功能,我可以提供详细的关闭步骤,包括修改注册表、使用组策略编辑器,或推荐一些经过验证的第三方工具,帮助你更有效地管理和阻断不必要的数据传输。

2025-08-05 16:39:49 490

原创 轨迹即剧本!ATI零训练注入灵魂,多模型秒变“导演级”AI视频机

字节跳动最新提出了一种名为ATI(Action Trajectory Injection)的统一框架,为视频生成中的运动控制带来了全新突破。该框架创新性地采用基于轨迹的控制方式,首次将摄像机运动、物体整体位移以及精细的局部形变等多种运动类型,整合到一个简洁高效的系统中。与以往依赖多个独立模块或针对特定任务设计不同,ATI通过一个轻量级的“运动注入器”,将用户指定的关键点及其运动轨迹直接映射到预训练的图像-视频生成模型的潜在空间中。这种方式无需对原始模型进行重新训练,即可实现精准、协调且时间连贯的运动控制。

2025-08-04 23:18:35 134

原创 揭秘-英伟达GPU全系图谱:架构进化史与性能参数深度解析

GDDR打游戏,HBM算大模型,LPDDR跑移动设备** —— 显存类型的选择,本质是**性能、功耗与成本之间的战略权衡**。高端AI芯片为何不惜成本用HBM?因为大模型“吃数据如饮水”,没有高带宽,再强的算力也只能“饿着等”。

2025-08-04 18:18:54 1297

原创 港大「RAG-Anything」杀疯:PDF秒变PPT,图表动画一键成精

在解析基础上,系统构建跨模态知识图谱,通过实体识别与关系抽取技术,融合文本、图像、表格和公式之间的语义关联,利用多模态对齐与联合表示学习,形成统一的知识图谱结构,并同步构建高维向量数据库,实现语义与结构的双重存储。所有模态的解析结果均被映射到统一的知识表示空间,通过标准化的语义向量与图结构进行编码,打破模态壁垒,实现跨文本、图像、表格、公式等内容的深度融合与关联推理,真正构建起“看得全、理得清、答得准”的多模态认知体系。系统将文本段落、图表数据、数学公式等多样化的异构信息统一抽象为标准化的知识实体。

2025-07-23 12:41:14 872

原创 低代码+AI大脑:Open-WebUI 智能体构建全攻略

Open-WebUI 是一个开源、可扩展、支持完全离线运行的「自托管 AI 聊天平台」,用浏览器就能和本地或云端的大语言模型(LLM)对话。它原本叫 “Ollama WebUI”,后来独立出来,定位相当于「ChatGPT 网页版的私有化平替」。支持的后端:Ollama、OpenAI 兼容 API(LMStudio、Groq、Mistral、OpenRouter…)。内置功能:RAG 知识库、网页浏览、语音/图像/多模态、Markdown+LaTeX、角色权限、PWA 移动端、插件流水线等。

2025-07-22 19:35:36 1330

原创 从云端到指尖:MNN实现端侧大模型“量子压缩”

当别人还在为“跑得快”或“装得下”二选一时,

2025-07-22 16:00:11 819

原创 扔掉订阅制!Krita 把专业插画门槛劈成零

使用Krita几个月后,我已经完全适应了这个"新伙伴"。它让我明白,优秀的创作工具不一定要花大价钱,开源社区的力量同样能打造出专业级的软件。如果你是数字绘画爱好者,或者像我一样不想被昂贵的订阅费束缚,真心建议试试Krita。它可能不是完美的,但对于大多数创作需求来说,已经足够优秀。更重要的是,它代表了一种理念——艺术创作的门槛应该更低,让更多人能够自由地表达创意。

2025-07-16 22:58:07 850

原创 全视之眼觉醒:Ollama 重铸引擎,多模态 AI 一秒开挂

为此,Ollama 团队开发了全新的核心引擎,全面强化对多模态模型的支持,真正实现文本、图像等多类型输入的深度融合处理。”的许愿贴,到后面几百条技术路线、PR、补丁的拉锯战,再到最终跑起来的 demo,整段旅程就是一部由社区共同编写的「视觉觉醒编年史」。现在,只需几个简单步骤,你就能在自己的设备上运行支持图像理解的 AI 模型,体验本地化、高效且安全的视觉智能。上传一张图,模型秒读文字、表格、小票、手写批注,全部自动转成对话可用的上下文,无需写一行集成代码,点一下就能用。还不行动起来,来试试!

2025-07-16 21:04:30 968

原创 从0到1造Agent:全栈开源仓库已上线,训练部署一步到位

AI Agent 的训练范式,或许正在迎来一场剧变。。该项目基于开源 Qwen 模型,通过强化学习(RL)进行深度训练,在极具挑战的 SWE-Bench-Verified 基准测试中取得了高达59% 的成功率,一举登顶榜单,击败了众多强劲对手。这一突破不仅展示了开源模型在 Agent 训练中的巨大潜力,也为未来 AI Agent 的训练路径指出了新的方向。这项研究为各个垂直领域中 AI Agent 的训练提供了一个全新的、具有高度参考价值的范式。

2025-07-15 14:35:57 1424

原创 忘掉重启?不存在!LangGraph 与 PostgreSQL 联手给 AI 装上永生记忆

1.3 Conditional Edge —— 让流程「带脑子」• 作用:根据 State 中的某个字段值,在运行时动态选择下一步节点,实现非线性、递归甚至循环逻辑。• 典型写法:```pythonelse:```LangGraph 会把 routing_fn 的返回值(节点名)作为下一步要调度的节点。• 收益:– 减少硬编码 if/else,逻辑集中在一处。– 同一套图可服务多种业务场景(客服、招聘、代码助手),只需换 routing 函数。

2025-07-15 12:28:59 1725

原创 从芯片到灵魂:NVIDIA英伟达 7 年打造“机器人宇宙”完整闭环

是基于扩散变换器(DiT)构建的动作生成模块。该模块通过交叉注意力机制,聚焦于视觉-语言模型(VLM)输出的Tokens,并结合专为人形智能设计的状态与动作编码器/解码器,处理具有可变维度的输入输出,实现高精度运动生成。是一款完全可定制的多模态推理模型,其设计基于对空间与时间维度的深度理解,具备强大的时空感知能力。是基于视觉-语言模型(VLM)的推理引擎,运行于 NVIDIA L40 GPU 上,以 **10Hz** 的频率处理来自环境的视觉信息和用户发出的语言指令,负责理解场景并解析任务目标。

2025-07-14 18:59:02 1777

原创 2GB RAM 跑大模型不是梦:谷歌 Gemma 3n 开源,边缘 AI 革命来了

1.1 多模态:图、音、视频、文本,四路输入,一路文本输出,原生搞定。1.2 身材迷你:5B/8B 的“脑力”只按 2B/4B 的“饭量”开伙——E2B 占 2 GB、E4B 占 3 GB 内存就能跑。1.3 技术底牌:MatFormer 架构 + 每层嵌入 (PLE) + 全新 MobileNet-v5 视觉/音频编码器,专为端侧量身打造。1.4 实力爆表:140 种文字语言 + 35 种语音/图文多语;数学、代码、推理全线升级;

2025-07-14 17:42:10 1074

原创 三步封神!Dify 工作流秒变智能插件,MCP Server 实战全攻略

接下来我们将重点讲解如何构造插件所需的Schema数据结构,这是一段标准的 JSON 格式,用于描述你希望对外暴露的功能。

2025-07-08 23:22:02 934

原创 AI时代的新战局:N8N硬刚Dify,企业该站队谁

N8N让系统“会协作”,Dify让系统“会思考”。

2025-07-08 21:55:07 1607

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除