- 博客(395)
- 收藏
- 关注
原创 阿里开源最强编程模型Qwen3-Coder!超越GPT-4.1,登顶开源榜首
4800亿参数激活参数35B,阿里刚刚开源的编程模型在SWE-Bench编程任务自主规划评测中刷新AI编程SOTA,甚至超越闭源巨头,成为最强开源编程模型。
2025-07-23 15:56:49
351
原创 Git安装避坑指南:从环境配置到进阶优化的全链路解决方案
本文覆盖Windows/macOS/Linux三大平台高频问题,附终端命令+故障排查思维导图。:安装失败时先查日志再搜错误码,80%问题可通过官方文档解决!安装时选择“Checkout as-is”避免乱码。
2025-07-23 15:38:24
566
原创 DeepSeek 部署实战:高频问题排查指南
DeepSeek部署问题多集中于环境隔离显存管理并行效率三大核心环节。环境配置 → 2. 资源评估 → 3. 量化加速 → 4. 日志监控的递进排查路径。更多实战案例可关注:DeepSeek官方GitHubHugging Face模型仓库经验提示:复杂场景优先采用Docker+K8s部署,避免环境“幽灵问题”!
2025-07-22 17:30:37
722
原创 新版Qwen3深夜突袭:性能超越Kimi-K2、DeepSeek-V3
Qwen3的一次“小更新”,就让新模型在多项测试中超越了 Kimi-K2、DeepSeek-V3 等一众强劲对手。
2025-07-22 17:11:28
132
原创 马斯克布局儿童 AI 领域,xAI 推出 Baby Grok,将带来哪些变革?
xAI 布局儿童 AI 领域,即将推出 Baby Grok,这将带来哪些变革?
2025-07-21 18:06:42
243
原创 Wan2.1-14B-T2V-FusionX-VACE基础使用指南:基于ComfyUI
Load chekpoint:基础大模型加载器,用于加载模型。Load CLIP:作用是将输入的内容与生成式大模型结合,从而引导图片生成。Load ControNet Model:用于加载 contronet 各功能的节点KSampler:K 采样器。VAE :变分自编码器,类似滤镜。现在很多模型都自带 VAE,VAE 分为 Decode(解码)和 Encode(编码)。其中 编码器将输入数据压缩成一个潜在向量,解码器则根据这个潜在向量重构原始输入。
2025-07-18 17:21:21
1056
原创 今天,OpenAI彻底颠覆AI助手!ChatGPT智能体上线,融合三大AI
具备自主决策能力的ChatGPT智能体正式发布!无缝融合思考、操作、进化三大AI引擎。
2025-07-18 17:03:01
259
原创 蚂蚁集团AI书法神器——Calligrapher本地部署教程:扩散模型实现高精度文本图像定制
Calligrapher是一种创新的扩散模型框架,由蚂蚁集团与香港科技大学的研究团队共同开发,专门用于数字书法和设计应用中的文本图像定制与风格转换。Calligrapher可以提供个性化的文本图像定制,它允许用户使用各种风格化的图像和文本提示执行自定义,支持英文的修改。该框架通过自蒸馏机制、局部风格注入框架和上下文生成机制三大核心技术,实现了对任意文本或非文本输入的高精度风格复制和排版设计。自蒸馏机制:利用预训练的文本到图像生成模型和大型语言模型自动构建风格中心的排版基准数据集,无需手动注释即可实现风格学习
2025-07-17 17:37:37
766
原创 【架构革命】Transformer“杀手”来了!谷歌DeepMind推出MoR架构,动态路由实现推理2倍速!
2倍推理速度提升、训练内存减半,谷歌DeepMind刚刚推出的架构碾压传统Transformer,重新划定了AI效率的边界。
2025-07-17 17:20:31
457
原创 全链路开源+PBR物理渲染!Hunyuan3D-2.1本地部署教程:重新定义工业级3D生成
腾讯混元 3D-2.1 作为可扩展的三维资产生成系统,通过两大突破性创新推动前沿三维生成技术发展:全开源框架与基于物理的渲染(PBR)纹理合成。该系统首次完整公开模型权重与训练代码,使社区开发者能够直接微调并扩展模型,满足多样化下游应用需求,显著加速学术研究与工业部署进程。升级后的 PBR 管线取代了先前的 RGB 纹理模型,通过基于物理原理的材质模拟技术,生成具备真实感光效交互的纹理(如金属反射、次表面散射等)。混元 3D 2.1 与其他开源及闭源三维生成方案的对比评测。
2025-07-16 16:46:01
1131
原创 硅谷规模最大种子轮!OpenAI 前 CTO 初创企业获20亿美元融资,英伟达、AMD联投
硅谷史上规模最大的种子轮融资诞生了!前OpenAI CTO新公司刚成立就拿下20亿美元,估值破百亿。
2025-07-16 16:26:25
389
原创 Gemma-3n-E4B-it本地部署教程:谷歌开源轻量级多模态大模型,碾压 17B 级同类模型!
Gemma-3n-E4B-it(简称 E4B-IT)是 Google 于 2025 年 6 月 26 日推出的轻量级开源多模态 AI 模型,属于 Gemma 3n 系列的高阶版本(E4B 指“有效参数 4B”),专为移动设备和边缘计算场景设计,支持本地处理文本、图像和音频输入,并生成文本输出。E4B-IT 的音频功能支持设备端语音转文本和翻译(英法/英西翻译准确率超 92%),视觉功能由 MobileNet-V5 编码器驱动。
2025-07-15 15:24:12
901
原创 刚刚,英伟达宣布将恢复 H20 在华销售!并计划推出全新GPU
美国政府批准H20出口许可,英伟达将开始向中国销售H20,持续三个月的芯片僵局是否将被打破?
2025-07-15 15:13:55
430
原创 阿里开源黑科技!Wan2.1-14B-T2V-FusionX-VACE本地部署教程:基础模型+专项优化模块“实现质变!
今年5月,阿里云开源模型,凭借其突破性技术架构与能力,极大提升了AI视频创作效果。本次合并模型整合了的作用域(scopes)与的模型架构。
2025-07-14 16:02:29
1427
原创 Manus 「出走」背后:AI Agent 赛道技术与市场的双重困境
从万众追捧到风口浪尖,Manus用130天上演了一场AI创业的魔幻现实主义大戏。
2025-07-14 15:46:26
642
原创 “28项评测23项SOTA——GLM-4.1V-9B-Thinking本地部署教程:10B级视觉语言模型的性能天花板!
GLM-4.1V-9B-Thinking是由智谱AI联合清华大学团队推出的多模态大模型,以基座模型为底,通过引入“思维链推理机制”和“课程采样强化学习策略”(Reinforcement Learning with Curriculum Sampling),显著提升了模型的跨模态推理能力与稳定性。在继承 GLM 系列通用大模型能力的基础上,进一步强化了视觉理解和复杂推理能力。该模型支持长上下文输入,具备处理图像、视频、文本等多种模态的能力,适用于教育、科研、工业和政务等多个领域。
2025-07-11 17:29:50
1171
原创 6 亿参数玩转 20 + 语言!OuteTTS-1.0-0.6B本地部署教程,轻量模型也能 hold 住跨语言合成
OuteTTS-1.0-0.6B 是 OuteAI 于 2025 年 5 月发布的开源语音合成模型,基于 Qwen-2.5-0.5B 架构优化,参数规模 6 亿,专注于轻量级高性能语音合成。该模型通过创新技术路径实现了多语言支持、声音克隆和低资源消耗的平衡,在边缘计算、移动应用等场景展现出独特优势。
2025-07-10 17:03:41
819
原创 让AI绘图更可控!ComfyUI-Cosmos-Predict2基础使用指南
Cosmos-Predict2 是由 NVIDIA 推出的新一代物理世界基础模型,专为物理 AI 场景下的高质量视觉生成与预测任务设计。该模型具备极高的物理准确性、环境交互性和细节还原能力,能够真实模拟复杂的物理现象与动态场景。Cosmos-Predict2 支持文本到图像(Text2Image)和视频到世界(Video2World)等多种生成方式,广泛应用于工业仿真、自动驾驶、城市规划、科学研究等领域,是推动智能视觉与物理世界深度融合的重要基础工具。
2025-07-09 18:54:54
593
原创 ComfyUI-v0.3.43本地部署教程:新增 Omnigen 2 支持,复杂图像任务一步到位!
ComfyUI-v0.3.43 是基于节点化工作流的 Stable Diffusion 图形界面工具的最新版本,专注于提升模型兼容性、性能稳定性及用户体验。Flux Kontext 与 Omnigen 2 集成新增对 Flux Kontext(基于扩散模型的图像编辑工具)和 Omnigen 2 模型的官方支持。用户可通过节点直接调用这些模型,实现高精度图像风格迁移、多模态内容生成等复杂任务。
2025-07-08 17:51:27
1199
原创 腾讯重磅发布!业界首个美术级3D生成大模型Hunyuan3D-PolyGen诞生:BPT+强化学习实现美术级3D生成
腾讯混元推出业界首个美术级3D生成大模型,建模效率提升70%!这对数字内容生产行业将产生哪些影响?
2025-07-08 17:40:02
437
原创 ERNIE-4.5-21B-A3B-Paddle 本地部署教程:百度飞桨出品,下一代多模态大模型标杆
是百度推出的新一代多模态大模型,属于,采用,总参数规模达,激活参数。该模型基于开发,支持文本与视觉的联合训练,具备强大的多模态理解和生成能力。1.2.3.
2025-07-07 18:16:16
1211
原创 十年未解基因谜团被ChatGPT破解!真实案例揭示AI医疗新可能
斗争十年顽疾无果后,一次AI尝试,竟意外破解了基因谜团。ChatGPT如何成为诊断助手?背后是人机协作的新可能。
2025-07-07 17:42:09
304
原创 4 位量化 + FP8 混合精度:ERNIE-4.5-0.3B-Paddle本地部署,重新定义端侧推理效率
ERNIE-4.5-0.3B-Paddle 是百度文心大模型 4.5 系列中的轻量级成员,采用,总参数量仅 3 亿,基于飞桨(PaddlePaddle)框架深度优化,专为边缘计算、移动端和资源受限环境设计。:模型基于文本和视觉模态进行联合训练,能更好地捕捉多模态信息的细微差别,并提升文本理解与生成、图像理解以及跨模态推理等任务的性能。团队设计了一种异构 MoE 结构,并引入了模态隔离路由,采用了路由器正交损失和多模态标记平衡损失。这些架构选择确保两种模态都得到有效表示,从而在训练过程中实现相互强化。
2025-07-04 16:55:54
1186
原创 5 秒预览物理世界,2 行代码启动生成——ComfyUI-Cosmos-Predict2 本地部署教程,重塑机器人训练范式!
Cosmos-Predict2 是(WFM) 物理 AI 生态系统的一个关键分支,专门通过高级世界建模进行未来状态预测。它提供两项强大的功能:用于从文本描述创建高质量图像的文本到图像生成,以及用于从视频输入生成视觉模拟的视频到世界生成。我们在下图中可视化了 Cosmos-Predict2 的架构。
2025-07-03 18:00:56
979
原创 “开源双轨架构+40亿参数扩散Transformer——ComfyUI-OmniGen2本地部署教程:重塑多模态生成的效率边界!
是由北京智源研究院最新推出的一个强大、高效的开源多模态生成模型。与 OmniGen v1 不同,OmniGen2 具有两种不同的文本和图像模态解码路径,利用非共享参数和解耦的图像分词器。
2025-07-02 18:06:47
939
原创 AI如何驱动小米YU7的“强大产品力”?从Thor芯片到场景预判引擎
小米YU7开启预定3分钟订单破20万,1小时逼近29万,引爆全球车市。现象级热销背后,是其AI技术对汽车产品力的系统性重构。
2025-07-02 17:59:23
496
原创 图像编辑新变革 !ComfyUI-Kontext-fp8本地部署教程,120B参数对标闭源巨头
是一个强大的、模块化的界面与后端项目。该用户界面将允许用户使用基于图形/节点/流程图的界面设计和执行高级稳定的扩散管道。FLUX.1 Kontext 是 Black Forest Labs 最新推出的突破性多模态图像编辑模型,支持文本和图像同步输入,智能理解图像上下文并执行精确编辑。其开发版本为开源的 120 亿参数扩散 transformer 模型,具有出色的上下文理解和字符一致性维护能力,确保角色特征、构图布局等关键要素即使经过多次迭代编辑也能保持稳定。
2025-07-01 18:25:17
1488
原创 AI初学者如何对大模型进行微调?——零基础保姆级实战指南
→ 马普所:训练速度↑10倍,内存消耗降为1/3(适配SD3.5扩散模型)→ 人大团队:AudioCaps数据集BLEU得分↑12.7%数据生成技巧:用GPT-4扩增50条种子数据到200条。上海交大2025新技术:数学推理准确率↑15%:Qwen2-7B实测显存降低70%观察是否符合system角色设定。:RTX 3090可微调30B模型。,数学推理效果媲美全参数训练。
2025-06-30 20:04:20
283
原创 RAGFlow 从入门到实践:开发者快速上手指南
RAGFlow 是一个基于对文档深入理解的开源 RAG(检索增强生成)引擎。当与 LLM 集成时,它能够提供真实的问答功能,并以来自各种复杂格式数据的有根据的引用为后盾。接下来将介绍RAGFlow快速上手指南,帮助大家更快入门该引擎。
2025-06-27 15:21:12
876
原创 图像编辑革命!FLUX.1 Kontext [dev]震撼开源:120B参数对标闭源巨头GPT-4o!
今天凌晨,一个国产AI模型的开源,让AI图像编辑领域迎来里程碑时刻。
2025-06-27 14:16:42
239
原创 Dify v1.4.3保姆级使用指南!低代码构建AI Agent全流程
智能助手(Agent Assistant),利用大语言模型的推理能力,能够自主对复杂的人类任务进行目标规划、任务拆解、工具调用、过程迭代,并在没有人类干预的情况下完成任务。
2025-06-26 18:02:58
1685
原创 技术解析|可灵AI全球首部AI单元剧《新世界加载中》工作流揭秘:提示词工程如何解决口型同步/复杂动作生成 ?
昨天,在北京首映礼的暗场中,一段黏土风格的荒诞喜剧画面投映在银幕上:一根「宇宙肥肠在太空中漂浮,讽刺着人类对虚假进步的盲目崇拜。这便是快手可灵AI与异类Outliers团队共同推出的《新世界加载中》全球首部AI单元剧集。这部与传统短剧不同的全新作品,用全新的呈现方式为观众带来了更具视觉冲击力的视觉效果和观影体验,成为AIGC领域的创新之作。然而,涵盖7个不同题材的单元剧集,必定涉及复杂的人物表情和动作,创作人员如何借助可灵AI,实现流畅的影视效果呢?
2025-06-26 17:35:40
449
原创 开源代码修复新标杆——月之暗面最新开源编程模型Kimi-Dev-72B本地部署教程,自博弈修复 Bug
Kimi-Dev-72B由月之暗面(Moonshot AI)最新开源的AI编程模型,专为软件工程任务设计,并,超越 DeepSeek-R1 等模型,成为当前。
2025-06-25 19:36:44
1391
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人