算家计算-CSDN博客

原创 “28项评测23项SOTA——GLM-4.1V-9B-Thinking本地部署教程：10B级视觉语言模型的性能天花板！

GLM-4.1V-9B-Thinking是由智谱AI联合清华大学团队推出的多模态大模型，以基座模型为底，通过引入“思维链推理机制”和“课程采样强化学习策略”（Reinforcement Learning with Curriculum Sampling），显著提升了模型的跨模态推理能力与稳定性。在继承 GLM 系列通用大模型能力的基础上，进一步强化了视觉理解和复杂推理能力。该模型支持长上下文输入，具备处理图像、视频、文本等多种模态的能力，适用于教育、科研、工业和政务等多个领域。

2025-07-11 17:29:50 778

原创马斯克Grok 4陷入争议：追求真理还是个人观点的「扩音器」？

Grok 4翻车了？

2025-07-11 17:08:23 235

原创 6 亿参数玩转 20 + 语言！OuteTTS-1.0-0.6B本地部署教程，轻量模型也能 hold 住跨语言合成

OuteTTS-1.0-0.6B 是 OuteAI 于 2025 年 5 月发布的开源语音合成模型，基于 Qwen-2.5-0.5B 架构优化，参数规模 6 亿，专注于轻量级高性能语音合成。该模型通过创新技术路径实现了多语言支持、声音克隆和低资源消耗的平衡，在边缘计算、移动应用等场景展现出独特优势。

2025-07-10 17:03:41 793

原创全球第一！英伟达市值突破4万亿，算力正成为数字时代「新石油」

算力，这个未来的科技硬通货，正随着英伟达创造的商业神话，成为数字时代的「新石油」。

2025-07-10 16:55:24 454

原创让AI绘图更可控！ComfyUI-Cosmos-Predict2基础使用指南

Cosmos-Predict2 是由 NVIDIA 推出的新一代物理世界基础模型，专为物理 AI 场景下的高质量视觉生成与预测任务设计。该模型具备极高的物理准确性、环境交互性和细节还原能力，能够真实模拟复杂的物理现象与动态场景。Cosmos-Predict2 支持文本到图像（Text2Image）和视频到世界（Video2World）等多种生成方式，广泛应用于工业仿真、自动驾驶、城市规划、科学研究等领域，是推动智能视觉与物理世界深度融合的重要基础工具。

2025-07-09 18:54:54 544

原创突破 30 分！DeepSeek-R1 联合 X-Master，打破AI 评测纪录

“人类最后的考试”，被一支国内团队打破了纪录。

2025-07-09 18:37:23 994

原创 ComfyUI-v0.3.43本地部署教程：新增 Omnigen 2 支持，复杂图像任务一步到位！

ComfyUI-v0.3.43 是基于节点化工作流的 Stable Diffusion 图形界面工具的最新版本，专注于提升模型兼容性、性能稳定性及用户体验。Flux Kontext 与 Omnigen 2 集成新增对 Flux Kontext（基于扩散模型的图像编辑工具）和 Omnigen 2 模型的官方支持。用户可通过节点直接调用这些模型，实现高精度图像风格迁移、多模态内容生成等复杂任务。

2025-07-08 17:51:27 1120

原创腾讯重磅发布！业界首个美术级3D生成大模型Hunyuan3D-PolyGen诞生：BPT+强化学习实现美术级3D生成

腾讯混元推出业界首个美术级3D生成大模型，建模效率提升70%！这对数字内容生产行业将产生哪些影响？

2025-07-08 17:40:02 368

原创 ERNIE-4.5-21B-A3B-Paddle 本地部署教程：百度飞桨出品，下一代多模态大模型标杆

是百度推出的新一代多模态大模型，属于，采用，总参数规模达，激活参数。该模型基于开发，支持文本与视觉的联合训练，具备强大的多模态理解和生成能力。1.2.3.

2025-07-07 18:16:16 1127

原创十年未解基因谜团被ChatGPT破解！真实案例揭示AI医疗新可能

斗争十年顽疾无果后，一次AI尝试，竟意外破解了基因谜团。ChatGPT如何成为诊断助手？背后是人机协作的新可能。

2025-07-07 17:42:09 292

原创 4 位量化 + FP8 混合精度：ERNIE-4.5-0.3B-Paddle本地部署，重新定义端侧推理效率

ERNIE-4.5-0.3B-Paddle 是百度文心大模型 4.5 系列中的轻量级成员，采用，总参数量仅 3 亿，基于飞桨（PaddlePaddle）框架深度优化，专为边缘计算、移动端和资源受限环境设计。：模型基于文本和视觉模态进行联合训练，能更好地捕捉多模态信息的细微差别，并提升文本理解与生成、图像理解以及跨模态推理等任务的性能。团队设计了一种异构 MoE 结构，并引入了模态隔离路由，采用了路由器正交损失和多模态标记平衡损失。这些架构选择确保两种模态都得到有效表示，从而在训练过程中实现相互强化。

2025-07-04 16:55:54 1164

原创华人占AI半壁江山！全球AI顶尖人才榜揭晓，何恺明领衔多位华人科学家

华人科学家，正在重塑硅谷的AI格局。

2025-07-04 16:32:58 354

原创 5 秒预览物理世界，2 行代码启动生成——ComfyUI-Cosmos-Predict2 本地部署教程，重塑机器人训练范式！

Cosmos-Predict2 是（WFM）物理 AI 生态系统的一个关键分支，专门通过高级世界建模进行未来状态预测。它提供两项强大的功能：用于从文本描述创建高质量图像的文本到图像生成，以及用于从视频输入生成视觉模拟的视频到世界生成。我们在下图中可视化了 Cosmos-Predict2 的架构。

2025-07-03 18:00:56 950

原创智谱开源多模态推理新王者！9B参数挑战72B巨头

小模型的大智慧，正在重构全球AI竞争规则。

2025-07-03 17:41:17 540

原创 “开源双轨架构+40亿参数扩散Transformer——ComfyUI-OmniGen2本地部署教程：重塑多模态生成的效率边界！

是由北京智源研究院最新推出的一个强大、高效的开源多模态生成模型。与 OmniGen v1 不同，OmniGen2 具有两种不同的文本和图像模态解码路径，利用非共享参数和解耦的图像分词器。

2025-07-02 18:06:47 885

原创 AI如何驱动小米YU7的“强大产品力”？从Thor芯片到场景预判引擎

小米YU7开启预定3分钟订单破20万，1小时逼近29万，引爆全球车市。现象级热销背后，是其AI技术对汽车产品力的系统性重构。

2025-07-02 17:59:23 468

原创图像编辑新变革！ComfyUI-Kontext-fp8本地部署教程，120B参数对标闭源巨头

是一个强大的、模块化的界面与后端项目。该用户界面将允许用户使用基于图形/节点/流程图的界面设计和执行高级稳定的扩散管道。FLUX.1 Kontext 是 Black Forest Labs 最新推出的突破性多模态图像编辑模型，支持文本和图像同步输入，智能理解图像上下文并执行精确编辑。其开发版本为开源的 120 亿参数扩散 transformer 模型，具有出色的上下文理解和字符一致性维护能力，确保角色特征、构图布局等关键要素即使经过多次迭代编辑也能保持稳定。

2025-07-01 18:25:17 1120

原创扎克伯格成立华人主导“超级智能实验室”！AI人才争夺战迎来大洗牌

清华北大浙大中科大校友齐聚，硅谷AI人才争夺战迎来历史性洗牌”。

2025-07-01 18:06:53 436

原创 AI初学者如何对大模型进行微调？——零基础保姆级实战指南

→ 马普所：训练速度↑10倍，内存消耗降为1/3（适配SD3.5扩散模型）→ 人大团队：AudioCaps数据集BLEU得分↑12.7%数据生成技巧：用GPT-4扩增50条种子数据到200条。上海交大2025新技术：数学推理准确率↑15%：Qwen2-7B实测显存降低70%观察是否符合system角色设定。：RTX 3090可微调30B模型。，数学推理效果媲美全参数训练。

2025-06-30 20:04:20 273

原创 Labubu丑萌征服全球背后：AI赋能年轻人“为情绪买单”新经济

AI+潮玩，会产生下一个“Labubu”吗？

2025-06-30 19:43:45 450

原创 RAGFlow 从入门到实践：开发者快速上手指南

RAGFlow 是一个基于对文档深入理解的开源 RAG（检索增强生成）引擎。当与 LLM 集成时，它能够提供真实的问答功能，并以来自各种复杂格式数据的有根据的引用为后盾。接下来将介绍RAGFlow快速上手指南，帮助大家更快入门该引擎。

2025-06-27 15:21:12 850

原创图像编辑革命！FLUX.1 Kontext [dev]震撼开源：120B参数对标闭源巨头GPT-4o！

今天凌晨，一个国产AI模型的开源，让AI图像编辑领域迎来里程碑时刻。

2025-06-27 14:16:42 215

原创 Dify v1.4.3保姆级使用指南！低代码构建AI Agent全流程

智能助手（Agent Assistant），利用大语言模型的推理能力，能够自主对复杂的人类任务进行目标规划、任务拆解、工具调用、过程迭代，并在没有人类干预的情况下完成任务。

2025-06-26 18:02:58 1514

原创技术解析｜可灵AI全球首部AI单元剧《新世界加载中》工作流揭秘：提示词工程如何解决口型同步/复杂动作生成？

昨天，在北京首映礼的暗场中，一段黏土风格的荒诞喜剧画面投映在银幕上：一根「宇宙肥肠在太空中漂浮，讽刺着人类对虚假进步的盲目崇拜。这便是快手可灵AI与异类Outliers团队共同推出的《新世界加载中》全球首部AI单元剧集。这部与传统短剧不同的全新作品，用全新的呈现方式为观众带来了更具视觉冲击力的视觉效果和观影体验，成为AIGC领域的创新之作。然而，涵盖7个不同题材的单元剧集，必定涉及复杂的人物表情和动作，创作人员如何借助可灵AI，实现流畅的影视效果呢？

2025-06-26 17:35:40 433

原创开源代码修复新标杆——月之暗面最新开源编程模型Kimi-Dev-72B本地部署教程，自博弈修复 Bug

Kimi-Dev-72B由月之暗面（Moonshot AI）最新开源的AI编程模型，专为软件工程任务设计，并，超越 DeepSeek-R1 等模型，成为当前。

2025-06-25 19:36:44 1323 2

原创 AI医疗技术新突破！中国发布全球首个胃癌平扫CT识别AI模型，无创CT提前半年锁定病灶

中国医疗AI领跑全球！浙肿与阿里联合研发出全球首个基于平扫CT的胃癌影像筛查模型，发表于《自然·医学》，凭借创新技术改写传统筛查格局，惠及亿万民众。

2025-06-25 19:16:39 539

原创技术伦理之争：OpenAI陷抄袭风波，法院强制下架宣传视频

初创公司IYO控诉OpenAI窃取其智能耳塞技术专利，一场关乎巨头伦理与初创生存的天价诉讼，正撼动AI硬件格局。

2025-06-24 19:55:52 608

原创空间智能觉醒！蚂蚁ViLaSR-7B突破人类思维屏障，让大模型首次具备人类空间思维能力！

李飞飞、谢赛宁团队去年末发布的VSI-Bench基准（涵盖288个真实场景视频、5000+问答对）首次量化了AI的空间认知缺陷：在物体相对方向、距离估计等任务中，15个主流MLLM的**错误率高达71%源于空间推理短板，而非视觉识别或语言理解。随着“绘图推理”范式与VSI-Bench等评估工具的双轮驱动，AI终于开始用人类的视角丈量世界——从识别物体到理解空间，这场感知革命才刚刚开始。这种边看边画、边画边想的交互模式，模拟了人类解决空间问题时用草图辅助思考的本能行为，显著提升了时空信息的保留效率。

2025-06-23 20:14:32 383

空空如也

空空如也