Black_Rock_br-CSDN博客

原创 NVIDIA AI加速实战营之（3）——TensorRT-LLM 模型自定义与实现

在深度学习领域，大型语言模型（LLMs）因其强大的自然语言处理能力而备受关注。然而，这些模型的推理效率往往受限于计算资源。NVIDIA的TensorRT-LLM库提供了一种解决方案，通过优化LLMs在NVIDIA GPU上的推理性能，使得这些模型能够更快地响应。本文将详细介绍如何自定义和实现TensorRT-LLM模型的过程，NVIDIA的资深工程师讲解具体实现自定义的课程。我们来实现最简单的自定义模型：创建自定义模型目录：定义模型类：在中注册模型：创建配置文件：构建模型引擎：这一步

2024-11-27 00:00:00 3364

原创 [特殊字符] TTS格局重塑！B站推出Index-TTS，速度、音质、情感表达全维度领先

中文中大量存在多音字（如“长”可读作“zhǎng”或“cháng”），其正确发音高度依赖上下文，传统TTS系统常因语义理解不足而误读，影响语音自然度与可懂度。（卷积增强型 Transformer）作为骨干网络，融合卷积层的局部感知能力与自注意力机制的长程依赖建模优势，能够高效捕捉语音信号在时间与频域上的复杂特征，为高质量语音合成奠定基础。若已标注，则优先采用用户指定发音，兼顾自动化与精准控制。：将提取的音频特征与文本及拼音编码进行多层次对齐与融合，作为扩散模型的强引导条件，实现个性化语音的高保真重建。

2025-08-22 23:39:47 555

原创 MCP 与 Function Calling 打开真实世界的两种“母体”方式

本文将以通俗易懂的方式，带你深入了解这两项核心技术的工作原理、各自特点以及在实际场景中的应用价值，助你全面掌握现代AI系统“动手办事”的背后逻辑。两者的融合，正在催生一个更智能、更灵活、更无缝融入人类生活的AI新时代。本文将以通俗易懂的方式，深入解析MCP（模型调用协议）与函数调用的核心概念，比较二者的异同，并探讨它们在实际应用中的典型场景。试想一下，如果你的AI助手只能基于训练时学到的信息回答问题，却无法告诉你“今天北京的天气如何”或“帮我订一间下周的餐厅”，那它再聪明也显得“束手无策”。

2025-08-22 23:00:04 386

原创从零到一：RAGFlow 本地部署全攻略

今天的分享，将带你一步步完成这款工具的本地部署。

2025-08-21 23:51:24 253

原创零边际代码：当 AI 把软件价格打穿地心，商业宇宙如何重启？

过去搭平台得砸大钱、熬年头；如今写软件便宜了，搭平台也快得多。客户不想守着十几套工具，只想一个界面全搞定。功能差距越来越小，能把它们拼在一起，才是真正的卖点。

2025-08-21 15:02:09 1109

原创 AI on Mac, Your Way！全本地化智能代理，隐私与性能兼得

2025 年 AI Agent 全面爆发，macOS 阵营杀出一匹黑马——开源新锐 Cua，让果粉也沸腾！由 trycua 团队开发的 Cua，是一款专为 macOS 打造的开源 AI Agent 框架，正重新定义计算机自动化操作的边界。它基于 Apple 原生的 Virtualization.Framework 构建，充分利用 Apple Silicon 芯片的高性能架构，支持在本地高效创建和运行 macOS 与 Linux 虚拟机。Cua 的核心创新在于将 AI 代理深度集成到虚拟化环境中，使 AI 能

2025-08-20 11:49:35 1151

原创本地部署的终极多面手：Qwen2.5-Omni-3B，视频剪、音频混、图像生、文本写全搞定

综上所述，Qwen2.5-Omni-3B 凭借其轻量高效、多模态融合与长上下文理解等优势，已在多个垂直领域展现出广泛的应用前景，助力智能化服务的快速部署与创新落地。

2025-08-20 11:16:11 864

原创无缝衔接 20+ 大模型，私有文档秒变精准答案引擎

把「找答案」升级为「知识导航」。在向量、全文、混合检索之外，新增 GraphRAG：把企业知识先建成一张实体-关系网，再用生成式 AI 导航。• 复杂提问一次命中：跨实体、跨层级、跨文档的关联秒级定位。• 准确率再跃升：图谱结构消除歧义，回答不再“张冠李戴”。一句话，GraphRAG = 知识图谱 × 检索增强，专为数据密集场景而生。

2025-08-19 18:04:28 907

原创 Meta视觉引领潮流：DINOv3开源模型震撼发布

这表明，通过合理的设计，patch-level特征的一致性与判别性全局特征的学习可以有效兼顾。此外，为了便于社区使用和部署，Meta通过蒸馏70亿参数的原生DINOv3模型，构建了一个开发环境友好的v3模型矩阵，包括Vision Transformer（ViT）的Small、Base和Large版本，以及基于ConvNeXt的架构。具体而言，随着训练深入，原本应具有明确空间对应关系的图像块特征，出现了非相关区域与参考区域相似度过高的问题，破坏了特征的空间一致性，进而削弱了模型在密集预测任务中的表现。

2025-08-19 17:02:41 979

原创我的一周年—2024-0818~2025-0818+创作纪念日

时光飞逝，转眼间1年过去了，我成为一名CSDN开发创作者已经有一段时间了。在这个特殊的日子里，我想和大家分享一下我的创作历程，包括初心、收获、日常、成就以及对未来的憧憬和无限的可能得创新未来。

2025-08-18 19:08:13 302

原创 GPU 调度的终极对决？NVIDIA KAI-Scheduler 与 HAMi 的技术路线全景解析

如果你追求。

2025-08-18 17:30:02 916

原创私人AI搜索新突破：3步本地部署Dify+Ollama+QwQ，搜索能力MAX

安装 Dify 简单的方式就是git clone，复制其github地址github.com/langgenius/dify，找个文件夹git cloen就:。Dify的插件功能比起繁琐的MCP服务器好用多了，直接在dify页面中插件，搜索google，直接安装并填入刚获得的谷歌搜索API密钥。别担心，最后这一步超简单——只要打开 Dify 的工作室，进入 Agent 页面，点一下“创建空白应用”，就搞定啦！点开dify页面右上角的用户图标中的设置。在模型供应商ollama中点添加模型。

2025-08-17 15:19:21 437

原创视觉AI大爆炸！自回归视频生成模型震撼开源，开启创作新时代

每个片段都会独立完成完整的去噪操作，一旦当前片段的去噪效果达到设定的阈值，系统便会立刻开始生成下一个片段。：用户可基于已生成或上传的视频片段，无缝续接新的内容，系统自动完成对齐与融合，无需手动剪辑。Sand AI正式发布MAGI-1——全球首个基于自回归架构的开源视频生成大模型，标志着AI视频生成迈入“连续、可控、可扩展”的新纪元。这一系列技术创新，使MAGI-1在保证高保真视频输出的同时，具备出色的可扩展性与部署灵活性，为未来AI视频应用开辟了广阔空间。现在，代码已开源，模型可下载，未来由你定义。

2025-08-17 12:53:53 621

原创元宇宙新动力！NVIDIA Omniverse 部署指南

该平台融合了 Pixar 开发的 OpenUSD 强大的场景描述与数据交换能力，以及 NVIDIA RTX 实时路径追踪技术在图形渲染与物理仿真方面的卓越性能，助力开发者打造可扩展、跨领域的工业级 3D 工作流解决方案。此次重构不仅提升了系统的稳定性与可维护性，还优化了接口设计，增强了错误处理机制，显著改善了扩展之间的兼容性与整体运行的可靠性，为开发者提供了更坚实、更清晰的开发基础。值得注意的是，自 Kit 106 版本起，Omniverse 不再提供传统的一体化应用程序安装包。并回车，打开命令提示符。

2025-08-16 23:26:50 532

原创字节黑科技：仅凭“音频+1张图”，数字人精细度狂飙20%，真人动画复刻出神入化！

沿途风景随着视频生成技术的快速发展，人体图像动画逐渐成为研究热点，在电影制作、广告传播以及电子游戏等领域展现出广阔的应用前景。然而，当前方法仍主要停留在粗粒度的动作控制层面，在实现精细动作还原（如细微的眨眼、唇部颤动）、适应多尺度输入（如肖像、上半身、全身）以及维持长时间序列中的视觉一致性（如遮挡区域的衣物或肢体连贯性）等方面仍面临显著挑战22222为了应对这些复杂场景，作者提出了一个基于DiT框架的算法——DreamActor-M1。该算法通过混合引导技术，实现了整体、富有表现力且鲁棒的人体图像动画。

2025-08-16 19:26:29 1322

原创 n8n 进化完成：你的工作流，现在由一群AI共同执行

社交媒体发布Agent，把图文打包，现在就发，记得选流量高峰时段。整个过程，**没有复制粘贴，没有人工中转，也没有流程断点**。每一个Agent各司其职，而主代理则像一位经验丰富的总监，全程掌控节奏、协调资源、确保交付。看到了吗？AI 不再是孤军奋战的“功能模块”，而是被赋予了角色与协作逻辑的“团队成员”。任务自动拆解、动态调度、链式执行——这才是真正意义上的 --Agentic Workflow（智能代理工作流）--。一次指令，全链响应；一人指挥，百机协同。

2025-08-15 21:20:34 923

原创 250台虚拟机齐上阵，Manus发布Wide Research开启智能体研究新纪元

Manus推出了一项名为Wide Research的创新功能，彻底改变了传统AI研究的模式。该功能通过调用多个AI智能体并行协作来处理任务，以“广度研究”为核心，能够快速应对大规模任务，标志着AI从单一助手向“数字军团”转型。Wide Research在处理速度和信息广度上表现出色，但同时也面临着技术挑战和成本高昂的问题。关键点如下：- Wide Research通过调用上百个AI智能体并行处理任务，显著提升了效率。

2025-08-15 19:19:08 895

原创 RAG的视觉知识之旅：图像也能加入知识库啦！

它不仅支持**长上下文嵌入**（最高可达8192个token），能够更完整地保留复杂文档的语义结构，还首次引入了**多模态嵌入能力**，可统一处理文本与图像内容，实现跨模态的语义对齐与联合检索。本次测试中，我们将它与 **Gemini Flash 2.5** 结合，构建一个增强型的 RAG 系统，探索其在复杂查询理解、多模态内容处理以及长上下文场景下的实际表现。通过计算问题嵌入与图像嵌入之间的语义相似度，系统从数据库中检索出与问题最相关的图像内容，实现“以文搜图”的精准定位。

2025-08-14 22:34:49 626

原创 GraphRAG：AI理解复杂知识的未知领域，开启探索之旅

GraphRAG（图检索增强生成）通过融合知识图谱与检索增强生成技术，彻底革新了大语言模型处理专业领域知识的方式。与传统的RAG仅依赖文本片段匹配不同，GraphRAG首先将原始文本转化为结构化的知识图谱，精准刻画实体之间的语义关系。在此基础上，系统通过图遍历算法和多跳推理机制，动态检索与问题相关的知识子图，捕捉深层次的关联信息。最终，模型在保留图结构语义的前提下生成逻辑严密、上下连贯的回答。不仅能揭示概念之间的隐含联系，还能支持复杂的多步推理过程，有效应对需跨多个知识点推导的难题。

2025-08-14 22:05:01 841

原创 R1 遭遇劲敌：中国秘密 AI 团队 32B 稠密模型 AM-Thinking-v1 强势来袭

而这款模型背后的团队，是国内一个从未对外公开过的研究团队——A-M-team。A-M-team 却选择了与众不同的道路，专注于 32B 这一“中等规模模型”的参数区间，而这一选择背后有着清晰且深刻的考量：他们致力于探寻一条在计算资源有限、数据完全开源的条件下，依然能够实现卓越推理能力的新路径。令人震惊的是，这款中等规模的稠密模型，在多项关键推理评估中战胜了 DeepSeek-R1，并且其表现与超大规模的 MoE 模型 Qwen3-235B-A22B、Seed1.5-Thinking 不相上下。

2025-08-12 14:08:05 1127

原创 gpt-oss-120b 模型：笔记本上的智能“奇幻之旅”

所以，这里推荐将显存分配设为 64GB，能保证完美运行。

2025-08-12 13:42:39 385

原创从源码看 Coze：Agent 的三大支柱是如何构建的？

此前已经开源的开发框架 Eino，加上近期开源的扣子开发平台（Coze Studio）和扣子罗盘（Coze Loop），扣子把 Agent 从开发、评测到运维的完整链路都开源了，一步到位。今年 Agent 有多火，大家有目共睹。爆款 Agent 层出不穷，各大厂商也纷纷发布 MCP 协议支持，种种迹象表明，Agent 正从“炫技玩具”变成能落地的应用工具。在这一关键时期，要让 Agent 成熟，仅靠一家厂商是不够的。而开源，正是破局的关键之一。

2025-08-11 17:30:54 602

原创从 CRUD 到量子并行计算，我的几个小时奇妙之旅

这种现象就是所谓的“量子纠缠”。的惊艳之处：它利用量子叠加态，让系统“同时探索”f(0) 和 f(1) 的整体行为，再通过量子干涉提取出函数的全局性质——是“一致”还是“不同”。从逻辑上讲，这就是“量子坍缩”：我们测量了一个 Qubit 的值，然后根据这个值来调整整个量子系统的状态向量，把所有和观测值不一致的可能性都去掉，得到一个和当前测量结果相匹配的新状态。比如，如果你只测了 f(0)=0 ，你根本无法判断它是“恒为 0”的常数函数，还是“输入输出相同”的恒等函数——只有看到两个输出，才能下结论。

2025-08-11 16:16:19 1506

原创算力即权力！一文掌握大模型GPU选卡的黄金法则

使用场景 | 推荐 GPU | 特点说明 || 大模型训练 | H200、B200、H100、A100 | 高算力、大显存、高带宽 || 中小模型训练 | A6000、V100 | 成本可控，适合本地化训练 |

2025-08-06 23:59:50 706

原创阿里开源 Qwen-Image，解锁免费版 GPT-4o 吉卜力，中文领域最佳模型震撼登场

阿里在昨日凌晨，阿里巴巴达摩院宣布开源其最新研发的文生图模型 Qwen-Image。该模型拥有 200 亿参数，基于 MMDiT 架构构建，具备强大的图片生成能力，能够生成包括写实、动漫、赛博朋克、科幻、极简、复古、超现实、水墨等在内的几十种风格类型的图片。此外，它还支持对图片进行风格迁移、增删改、细节增强以及文字编辑等操作，甚至可以对人物姿态进行调整等常规操作。尤为值得一提的是，Qwen-Image 还能够生成类似于 OpenAI 的 GPT-4o 那种在全网爆火的吉卜力风格图片。

2025-08-06 10:13:58 478

原创 AI也开始“推理”了？图像生成新范式DPO vs GRPO，这场较量颠覆你的认知

近年来，强化学习（Reinforcement Learning）在增强大语言模型（LLM）推理能力方面取得了显著进展，尤其是在激发“思维链”（Chain of Thought, CoT）推理方面展现出巨大潜力。如今，这一范式正突破文本边界，向图像生成领域延伸。当图像生成被重新构视为一个序列化决策与逐步推理的过程，传统用于对齐语言模型的优化方法——如 DPO（直接偏好优化）与 GRPO（组相对策略优化）——能否在视觉生成任务中延续辉煌？二者在这一全新战场上的表现又将如何分庭抗礼？图1是论文标题。

2025-08-05 18:05:58 656

原创企业 IT 的终极隐私外挂：Windows 有组策略，macOS 有 MDM，但谁更听话

相比之下，Windows 的数据收集机制覆盖更广，且部分诊断数据属于系统运行所依赖的“必需遥测”，即使用户在隐私设置中选择最低级别，仍会有一定量的信息被强制上传。更重要的是，我们还可以采取具体措施，关闭最基本的遥测和数据收集功能，在保障系统正常运行的同时，更好地掌控个人隐私。如果你希望进一步加强对 Windows 系统的隐私控制，彻底禁用其遥测和数据上报功能，我可以提供详细的关闭步骤，包括修改注册表、使用组策略编辑器，或推荐一些经过验证的第三方工具，帮助你更有效地管理和阻断不必要的数据传输。

2025-08-05 16:39:49 490

原创轨迹即剧本！ATI零训练注入灵魂，多模型秒变“导演级”AI视频机

字节跳动最新提出了一种名为ATI（Action Trajectory Injection）的统一框架，为视频生成中的运动控制带来了全新突破。该框架创新性地采用基于轨迹的控制方式，首次将摄像机运动、物体整体位移以及精细的局部形变等多种运动类型，整合到一个简洁高效的系统中。与以往依赖多个独立模块或针对特定任务设计不同，ATI通过一个轻量级的“运动注入器”，将用户指定的关键点及其运动轨迹直接映射到预训练的图像-视频生成模型的潜在空间中。这种方式无需对原始模型进行重新训练，即可实现精准、协调且时间连贯的运动控制。

2025-08-04 23:18:35 134

原创揭秘-英伟达GPU全系图谱：架构进化史与性能参数深度解析

GDDR打游戏，HBM算大模型，LPDDR跑移动设备** —— 显存类型的选择，本质是**性能、功耗与成本之间的战略权衡**。高端AI芯片为何不惜成本用HBM？因为大模型“吃数据如饮水”，没有高带宽，再强的算力也只能“饿着等”。

2025-08-04 18:18:54 1297

原创港大「RAG-Anything」杀疯：PDF秒变PPT，图表动画一键成精

在解析基础上，系统构建跨模态知识图谱，通过实体识别与关系抽取技术，融合文本、图像、表格和公式之间的语义关联，利用多模态对齐与联合表示学习，形成统一的知识图谱结构，并同步构建高维向量数据库，实现语义与结构的双重存储。所有模态的解析结果均被映射到统一的知识表示空间，通过标准化的语义向量与图结构进行编码，打破模态壁垒，实现跨文本、图像、表格、公式等内容的深度融合与关联推理，真正构建起“看得全、理得清、答得准”的多模态认知体系。系统将文本段落、图表数据、数学公式等多样化的异构信息统一抽象为标准化的知识实体。

2025-07-23 12:41:14 872

空空如也

空空如也