• 博客(380)
  • 收藏
  • 关注

原创 “28项评测23项SOTA——GLM-4.1V-9B-Thinking本地部署教程:10B级视觉语言模型的性能天花板!

GLM-4.1V-9B-Thinking是由智谱AI联合清华大学团队推出的多模态大模型,以基座模型为底,通过引入“思维链推理机制”和“课程采样强化学习策略”(Reinforcement Learning with Curriculum Sampling),显著提升了模型的跨模态推理能力与稳定性。在继承 GLM 系列通用大模型能力的基础上,进一步强化了视觉理解和复杂推理能力。该模型支持长上下文输入,具备处理图像、视频、文本等多种模态的能力,适用于教育、科研、工业和政务等多个领域。

2025-07-11 17:29:50 778

原创 马斯克Grok 4陷入争议:追求真理还是个人观点的「扩音器」?

Grok 4翻车了?

2025-07-11 17:08:23 235

原创 6 亿参数玩转 20 + 语言!OuteTTS-1.0-0.6B本地部署教程,轻量模型也能 hold 住跨语言合成

OuteTTS-1.0-0.6B 是 OuteAI 于 2025 年 5 月发布的开源语音合成模型,基于 Qwen-2.5-0.5B 架构优化,参数规模 6 亿,专注于轻量级高性能语音合成。该模型通过创新技术路径实现了多语言支持、声音克隆和低资源消耗的平衡,在边缘计算、移动应用等场景展现出独特优势。

2025-07-10 17:03:41 793

原创 全球第一!英伟达市值突破4万亿,算力正成为数字时代「新石油」

算力,这个未来的科技硬通货,正随着英伟达创造的商业神话,成为数字时代的「新石油」。

2025-07-10 16:55:24 454

原创 让AI绘图更可控!ComfyUI-Cosmos-Predict2基础使用指南

Cosmos-Predict2 是由 NVIDIA 推出的新一代物理世界基础模型,专为物理 AI 场景下的高质量视觉生成与预测任务设计。该模型具备极高的物理准确性、环境交互性和细节还原能力,能够真实模拟复杂的物理现象与动态场景。Cosmos-Predict2 支持文本到图像(Text2Image)和视频到世界(Video2World)等多种生成方式,广泛应用于工业仿真、自动驾驶、城市规划、科学研究等领域,是推动智能视觉与物理世界深度融合的重要基础工具。

2025-07-09 18:54:54 544

原创 突破 30 分!DeepSeek-R1 联合 X-Master,打破AI 评测纪录

“人类最后的考试”,被一支国内团队打破了纪录。

2025-07-09 18:37:23 994

原创 ComfyUI-v0.3.43本地部署教程:新增 Omnigen 2 支持,复杂图像任务一步到位!

ComfyUI-v0.3.43 是基于节点化工作流的 Stable Diffusion 图形界面工具的最新版本,专注于提升模型兼容性、性能稳定性及用户体验。Flux Kontext 与 Omnigen 2 集成新增对 Flux Kontext(基于扩散模型的图像编辑工具)和 Omnigen 2 模型的官方支持。用户可通过节点直接调用这些模型,实现高精度图像风格迁移、多模态内容生成等复杂任务。

2025-07-08 17:51:27 1120

原创 腾讯重磅发布!业界首个美术级3D生成大模型Hunyuan3D-PolyGen诞生:BPT+强化学习实现美术级3D生成

腾讯混元推出业界首个美术级3D生成大模型,建模效率提升70%!这对数字内容生产行业将产生哪些影响?

2025-07-08 17:40:02 368

原创 ERNIE-4.5-21B-A3B-Paddle 本地部署教程:百度飞桨出品,下一代多模态大模型标杆

是百度推出的新一代多模态大模型,属于,采用,总参数规模达,激活参数。该模型基于开发,支持文本与视觉的联合训练,具备强大的多模态理解和生成能力。1.2.3.

2025-07-07 18:16:16 1127

原创 十年未解基因谜团被ChatGPT破解!真实案例揭示AI医疗新可能

斗争十年顽疾无果后,一次AI尝试,竟意外破解了基因谜团。ChatGPT如何成为诊断助手?背后是人机协作的新可能。

2025-07-07 17:42:09 292

原创 4 位量化 + FP8 混合精度:ERNIE-4.5-0.3B-Paddle本地部署,重新定义端侧推理效率

ERNIE-4.5-0.3B-Paddle 是百度文心大模型 4.5 系列中的轻量级成员,采用,总参数量仅 3 亿,基于飞桨(PaddlePaddle)框架深度优化,专为边缘计算、移动端和资源受限环境设计。:模型基于文本和视觉模态进行联合训练,能更好地捕捉多模态信息的细微差别,并提升文本理解与生成、图像理解以及跨模态推理等任务的性能。团队设计了一种异构 MoE 结构,并引入了模态隔离路由,采用了路由器正交损失和多模态标记平衡损失。这些架构选择确保两种模态都得到有效表示,从而在训练过程中实现相互强化。

2025-07-04 16:55:54 1164

原创 华人占AI半壁江山!全球AI顶尖人才榜揭晓,何恺明领衔多位华人科学家

华人科学家,正在重塑硅谷的AI格局。

2025-07-04 16:32:58 354

原创 5 秒预览物理世界,2 行代码启动生成——ComfyUI-Cosmos-Predict2 本地部署教程,重塑机器人训练范式!

Cosmos-Predict2 是(WFM) 物理 AI 生态系统的一个关键分支,专门通过高级世界建模进行未来状态预测。它提供两项强大的功能:用于从文本描述创建高质量图像的文本到图像生成,以及用于从视频输入生成视觉模拟的视频到世界生成。我们在下图中可视化了 Cosmos-Predict2 的架构。

2025-07-03 18:00:56 950

原创 智谱开源多模态推理新王者!9B参数挑战72B巨头

小模型的大智慧,正在重构全球AI竞争规则。

2025-07-03 17:41:17 540

原创 “开源双轨架构+40亿参数扩散Transformer——ComfyUI-OmniGen2本地部署教程:重塑多模态生成的效率边界!

是由北京智源研究院最新推出的一个强大、高效的开源多模态生成模型。与 OmniGen v1 不同,OmniGen2 具有两种不同的文本和图像模态解码路径,利用非共享参数和解耦的图像分词器。

2025-07-02 18:06:47 885

原创 AI如何驱动小米YU7的“强大产品力”?从Thor芯片到场景预判引擎

小米YU7开启预定3分钟订单破20万,1小时逼近29万,引爆全球车市。现象级热销背后,是其AI技术对汽车产品力的系统性重构。

2025-07-02 17:59:23 468

原创 图像编辑新变革 !ComfyUI-Kontext-fp8本地部署教程,120B参数对标闭源巨头

是一个强大的、模块化的界面与后端项目。该用户界面将允许用户使用基于图形/节点/流程图的界面设计和执行高级稳定的扩散管道。FLUX.1 Kontext 是 Black Forest Labs 最新推出的突破性多模态图像编辑模型,支持文本和图像同步输入,智能理解图像上下文并执行精确编辑。其开发版本为开源的 120 亿参数扩散 transformer 模型,具有出色的上下文理解和字符一致性维护能力,确保角色特征、构图布局等关键要素即使经过多次迭代编辑也能保持稳定。

2025-07-01 18:25:17 1120

原创 扎克伯格成立华人主导“超级智能实验室”!AI人才争夺战迎来大洗牌

清华北大浙大中科大校友齐聚,硅谷AI人才争夺战迎来历史性洗牌”。

2025-07-01 18:06:53 436

原创 AI初学者如何对大模型进行微调?——零基础保姆级实战指南

→ 马普所:训练速度↑10倍,内存消耗降为1/3(适配SD3.5扩散模型)→ 人大团队:AudioCaps数据集BLEU得分↑12.7%数据生成技巧:用GPT-4扩增50条种子数据到200条。上海交大2025新技术:数学推理准确率↑15%:Qwen2-7B实测显存降低70%观察是否符合system角色设定。:RTX 3090可微调30B模型。,数学推理效果媲美全参数训练。

2025-06-30 20:04:20 273

原创 Labubu丑萌征服全球背后:AI赋能年轻人“为情绪买单”新经济

AI+潮玩,会产生下一个“Labubu”吗?

2025-06-30 19:43:45 450

原创 RAGFlow 从入门到实践:开发者快速上手指南

RAGFlow 是一个基于对文档深入理解的开源 RAG(检索增强生成)引擎。当与 LLM 集成时,它能够提供真实的问答功能,并以来自各种复杂格式数据的有根据的引用为后盾。接下来将介绍RAGFlow快速上手指南,帮助大家更快入门该引擎。

2025-06-27 15:21:12 850

原创 图像编辑革命!FLUX.1 Kontext [dev]震撼开源:120B参数对标闭源巨头GPT-4o!

今天凌晨,一个国产AI模型的开源,让AI图像编辑领域迎来里程碑时刻。

2025-06-27 14:16:42 215

原创 Dify v1.4.3保姆级使用指南!低代码构建AI Agent全流程

智能助手(Agent Assistant),利用大语言模型的推理能力,能够自主对复杂的人类任务进行目标规划、任务拆解、工具调用、过程迭代,并在没有人类干预的情况下完成任务。

2025-06-26 18:02:58 1514

原创 技术解析|可灵AI全球首部AI单元剧《新世界加载中》工作流揭秘:提示词工程如何解决口型同步/复杂动作生成 ?

昨天,在北京首映礼的暗场中,一段黏土风格的荒诞喜剧画面投映在银幕上:一根「宇宙肥肠在太空中漂浮,讽刺着人类对虚假进步的盲目崇拜。这便是快手可灵AI与异类Outliers团队共同推出的《新世界加载中》全球首部AI单元剧集。这部与传统短剧不同的全新作品,用全新的呈现方式为观众带来了更具视觉冲击力的视觉效果和观影体验,成为AIGC领域的创新之作。然而,涵盖7个不同题材的单元剧集,必定涉及复杂的人物表情和动作,创作人员如何借助可灵AI,实现流畅的影视效果呢?

2025-06-26 17:35:40 433

原创 开源代码修复新标杆——月之暗面最新开源编程模型Kimi-Dev-72B本地部署教程,自博弈修复 Bug

Kimi-Dev-72B由月之暗面(Moonshot AI)最新开源的AI编程模型,专为软件工程任务设计,并,超越 DeepSeek-R1 等模型,成为当前。

2025-06-25 19:36:44 1323 2

原创 AI医疗技术新突破!中国发布全球首个胃癌平扫CT识别AI模型,无创CT提前半年锁定病灶

中国医疗AI领跑全球!浙肿与阿里联合研发出全球首个基于平扫CT的胃癌影像筛查模型,发表于《自然·医学》,凭借创新技术改写传统筛查格局,惠及亿万民众。

2025-06-25 19:16:39 539

原创 技术伦理之争:OpenAI陷抄袭风波,法院强制下架宣传视频

初创公司IYO控诉OpenAI窃取其智能耳塞技术专利,一场关乎巨头伦理与初创生存的天价诉讼,正撼动AI硬件格局。

2025-06-24 19:55:52 608

原创 空间智能觉醒!蚂蚁ViLaSR-7B突破人类思维屏障,让大模型首次具备人类空间思维能力!

李飞飞、谢赛宁团队去年末发布的VSI-Bench基准(涵盖288个真实场景视频、5000+问答对)首次量化了AI的空间认知缺陷:在物体相对方向、距离估计等任务中,15个主流MLLM的**错误率高达71%源于空间推理短板,而非视觉识别或语言理解。随着“绘图推理”范式与VSI-Bench等评估工具的双轮驱动,AI终于开始用人类的视角丈量世界——从识别物体到理解空间,这场感知革命才刚刚开始。这种边看边画、边画边想的交互模式,模拟了人类解决空间问题时用草图辅助思考的本能行为,显著提升了时空信息的保留效率。

2025-06-23 20:14:32 383

原创 特斯拉纯视觉Robotaxi突袭奥斯汀:9年磨剑,首战公共道路

当方向盘后的控制权逐渐交还给算法,我们正在见证的不仅是技术迭代,更是文明形态的跃迁。在这场没有硝烟的战争中,马斯克用十年时间画下的"饼",正在变成改变世界的现实图景。而更深远的影响在于,若自动驾驶成为未来主要出行方式之一,一个覆盖出行、能源、娱乐的闭环生态可能将彻底改变城市交通格局,并重塑出行市场的经济模型。在自动驾驶技术屡遭寒冬的行业里,特斯拉用一场近乎"史诗级长跑"的坚持,将无人驾驶出租车从科幻概念推向现实,更将。在马斯克的蓝图中,Robotaxi不是简单的移动工具,而是移动生活空间的延伸。

2025-06-23 18:48:16 404

原创 开源新王MiniMax -M1 vLLM本地部署教程:百万级上下文支持成大模型领域新标杆!

MiniMax-M1 型号可以在配备 8 个 H800 或 8 个 H20 GPU 的单个服务器上高效运行。在硬件配置方面,配备 8 个 H800 GPU 的服务器可以处理多达 200 万个令牌的上下文输入,而配备 8 个 H20 GPU 的服务器可以支持高达 500 万个令牌的超长上下文处理能力。,凭借其百万级上下文支持、超高效计算性能和突破性成本表现,成为大模型领域的新标杆。为了保证部署环境的一致性和稳定性,我们建议使用 Docker 进行部署。💡 如果您使用的是其他环境配置,请参阅。

2025-06-20 17:51:18 879

原创 AI Agent落地桌面!Manus Windows版正式推出,免码安装:代码/报告一键生成

曾需万元邀请码的Manus AI,其Windows桌面应用正式开放,免码畅享。

2025-06-20 13:01:11 263

原创 Dify 推出全新版本!Dify-v1.4.3本地部署教程:开发效率飙升,快速打造 AI 应用!

是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。由于 Dify 内置了构建 LLM 应用所需的关键技术栈,包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排,并同时提供了一套易用的界面和 API。

2025-06-19 18:51:09 1111 2

原创 国产视频大模型霸榜全球!海螺02特效炸裂,好莱坞级大片10秒生成

一次生成,无需剪辑,千元成本产出1.7万条高清视频。

2025-06-19 18:41:04 761

原创 一文看懂AI算力类型,开启你的AI学习之旅!

在人工智能的世界里,算力,看似无形,却拥有着改变一切的强大力量。对于刚踏入AI领域的初学者来说,理解算力如何支撑AI训练等过程,以及不同类型算力的区别,是开启AI学习大门的关键一步。简单来说,算力就是计算机进行数据处理和运算的能力。在AI训练中,我们会给模型输入大量的数据,就像给一个超级“学生”提供海量的学习资料。而这个“学生”要从这些资料里总结出规律,学会如何完成各种任务,比如图像识别、语言翻译等。这个学习过程,也就是训练,需要进行巨量的计算。

2025-06-18 17:41:36 566

原创 谷歌性价比之王 Gemini 2.5 Flash-Lite发布:最快轻量版AI模型!

谷歌AI家族迎来最具性价比成员:不仅能实时生成操作系统界面,还是最快、成本最低的型号。

2025-06-18 17:07:15 505

原创 开源新王诞生!MiniMax-M1正式发布,超强上下文能力剑指DeepSeek!

一百万token上下文窗口,八倍于DeepSeek R1的处理长度,训练成本仅53万美元——沉寂已久的AI六小虎之一MiniMax用开源新模型重新定义了性价比。

2025-06-17 16:25:17 453

原创 Qwen3-Embedding-Reranker本地部署教程:8B 参数登顶 MTEB 多语言榜首,100 + 语言跨模态检索无压力!

Qwen3-Embedding与Qwen3-Reranker是阿里巴巴通义实验室于今年6月开源的双模型系列,专为文本表征、检索与排序任务设计。基于Qwen3基础模型构建,二者通过协同工作显著提升语义理解与信息检索效率,在多语言场景和工业部署中表现卓越。基于 Qwen3 系列的密集基础模型,提供了各种大小(0.6B、4B 和 8B)的全面文本嵌入和重新排序模型。该系列继承了其基础模型出色的多语言能力、长文本理解和推理技能。

2025-06-16 19:25:21 1267

原创 扎克伯格花148亿买下AI“数据炼油厂”:28岁华裔天才少年加盟Meta

扎克伯格豪赌148亿:买下半个AI圈的“数据底牌”。

2025-06-16 19:08:44 363

原创 告别复杂文档解析噩梦!MonkeyOCR 本地部署教程:支持公式/表格多元素结构化

MonkeyOCR 是华中科技大学联合金山办公(Kingsoft Office)推出的文档解析模型,模型支持高效地将非结构化文档内容转换为结构化信息。基于精确的布局分析、内容识别和逻辑排序,显著提升文档解析的准确性和效率。与传统方法相比,MonkeyOCR在处理复杂文档(如包含公式和表格的文档)时表现出色,平为性能提升5.1%,在公式和表格解析上分别提升15.0%和8.6%。同时,模型在多页文档处理速度上表现出色,达到每秒0.84页,远超其他同类工具。

2025-06-13 14:26:21 862

原创 全球网络瘫痪!谷歌云宕机,海外AI巨头集体“翻车”

谷歌云宕机,全球互联网出现了大规模瘫痪。

2025-06-13 14:16:33 294

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除