在通义App实测Qwen3,这可能是2025年上半年最强大模型

图片

“通义App能给到的,不止是千问3。”

2025年4月29日凌晨,阿里突然开源了新一代通义千问模型Qwen3(下称千问3)。这个被开发者称为「全球最强开源」的模型家族,一夜之间就刷屏了整个AI圈,并且和前一代千问系列模型一样,千问3的发布也是满屏的好评。

作为国内首个实现“混合推理"能力的开源模型,千问3不仅达到了36万亿token的训练数据量,还支持119种语言和方言。通过混合专家(MoE)架构与混合推理机制的深度整合,在参数效率与任务适应性层面实现双重突破。  

而在数学证明、代码生成等核心基准测试中,旗舰模型Qwen3-235B-A22B性能与DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等全球顶尖模型表现相当。

纸面数据这么强的模型,真实实力到底如何?

目前通义App以及通义网页版(www.tongyi.com)已经全面上线千问3,我们也通过通义App的“千问大模型”智能体(默认搭载Qwen3-235B-A22B模型)进行了文字陷阱、逻辑思维、文案创作、信息获取再创作等多轮测试,结果让我们大吃一惊。

01.今年高考,国产AI要拿高分了

首先为了保证测试的是千问3更为纯粹的逻辑以及推理能力,我们在测试前将联网功能进行了关闭,并且仅使用旗舰模型进行测试。

我们先用了两道经典的大模型测试问题为其“开开胃”:9.8和9.11谁大以及strawberry中有几个r,千问3均能直接果断的给出推理过程和答案,并且指出了常见误区以及用了多种不同的方式来证明答案的正确性。

随后我们又向千问3提出了此前难倒众多大模型的国内小学奥赛题目:

奥利弗周五摘了 44 个猕猴桃,周六摘了 58 个,周日摘的数量是周五的两倍,不过有5个更小一些。问奥利弗一共摘了多少个猕猴桃?

这道题目是北京海淀一所小学二年级的问题,逻辑很简单,不需要多么复杂的数学推导,但在此前却让GPT4o等大模型“翻车”。

然而千问3仅用7秒便准确的给到了我们正确答案,并且给到的关键点解析中也明确的标注出易错环节和验证逻辑。

仔细看千问3的推理过程,也能看出其准确的识别到了题目的陷阱,并且对答案进行了多轮验证。

简单的文字游戏难不住千问3,那么更加需要推理的问题呢?

于是我们拿出了去年高考理科数学中最后一道选择题,让千问3来解答:

已知b是a,c的等差中项,直线ax+by+c=0与圆x²+y²+4y-1=0交于A,B两点,则|AB|的最小值为?

 这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

对于这道需多轮推算与核对的难题,千问3并没有掉链子,细细查看给到的推理过程以及答案,可以发现千问3不但答对了题目,更是用了多种解题手段,并且考虑到了多种情况,且每一步都会反复验证,保证能够给到准确的信息。

高考过的都知道,数学最后一道选择题,往往是卷子中最难的之一,千问3能够准确且快速的给到答案,相信在今年的大模型PK高考数学的竞赛中,定能脱颖而出。

02.AI加持,小白也能成大拿

除了这些常规问题,我们又深度测试了千问3在创意写作、角色扮演、多轮对话、指令跟随等多方面的能力。需要注意的是,这些问题往往实时性较高,所以在这个环节我们也打开了联网功能。

首先,我们作为一个想要买黄金的小白,让千问3扮演一个职业金融分析师的角色,看看其能否给到我们专业,同时又通俗易懂的市场分析建议。

从千问3给到的回答中,我们可以清晰的看到其调用了极其专业的知识库信息,通过多维思考,给到了非常有逻辑的市场状况、核心驱动因素以及技术层面的分析和建议。在其助力下,即便是对经济市场完全不了解的小白用户,也能做出理性判断。

 这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

简单的没有难到千问3,那更为抽象的问题呢?我们给了千问3一个“擅长以莎士比亚风格来分析金融市场的研究员”的身份,然后让其分析未来黄金的走势。没想到的是,千问3没有丢掉任何一个要求,不仅有理有据的分析了市场,还将这些与莎士比亚的经典风格结合到了一起,这确实有点超前了。

当然,一个新的大模型问世,难免逃不过与同行的对比,于是我们也将千问3与目前较火的Deepseek-R1以及豆包1.5pro进行了对比测试。

不过对于大多数普通用户来说,这些都还不够日常,于是我们以最近比较火的“look in my eyes”作为考点,让千问3进行相关情景创作。千问3不但准确的找到了该梗出处,创作出的文案也属于直接能用的水准。

值得一提的是,其实这个环节我们也让在创作者群体中比较火的Deepseek-R1以及豆包1.5pro参与了创作,但让人意想不到的是豆包和Deepseek都没能识别出这个梗的出处以及真实含义,创作出的文案也几乎是无法直接使用。

03.一个指令,人人都可以是产品经理

除了解答问题、创作文案外,代码生成也是千问3的亮点能力。

在网页版的通义中(www.tongyi.com),用户可以进入更擅长处理代码问题的代码模式,在这个模式中,只要一句话便可生成一个应用。

我作为一个完全的代码小白,想让千问3帮我生成一个摸鱼小游戏,但没有更为具体的想法,于是就直接向千问3下达了生成摸鱼小游戏的指令。大概10S钟的时间,一个接金币小游戏便生成了,并且玩起来也十分丝滑。

随后我提出新的需求,希望通义帮我做一个通勤助手,要求以卡片形式整合 “天气+交通+日程”,一站式展示通勤关键信息。

通义给出的结果,再次让人眼前一亮,不仅实现了功能需求,还对重点细节部分进行了详细说明,以便用户直接更改需求使用。

值得一提的是,通义网页版还配备了指令优化功能,可以直接优化用户指令,使其更丰富且更贴合代码生成逻辑。

小球测试也是难倒众多大模型代码能力的测试,我们也拿这个来考考千问3,给到其要求:编写一个动画程序,模拟一个红色小球在顺时针旋转的五边形中晃动,并遵循重力规律。

千问3快速给到了代码,并且给到了使用指南,而我们根据使用指南将代码运行起来,得到了一个符合指令的展示效果。

其实通过一轮轮测试下来,可以明显的感知到千问3在复杂任务处理上的碾压级优势——它不是简单堆砌知识点的答题机器,而是真正具备思维链构建能力的智能体。

当然,一个出色的大模型也需要一个出色的落地产品。在使用通义App体验千问3的过程中,也能确切的感受到新版通义App在多轮进化升级后,无论是产品界面还是交互体验等设计层面的全方位变化,都变得更加易用,也更具温度。

虽然过去的通义App同样具备不俗的AI实力,但在用户使用体验上仍有优化空间。例如此前的通义App在主界面上集合了不少功能,这种设计虽然可以帮助用户快速跳转,但对于新用户来说,难免会出现摸不着头脑的情况,需要摸索后才能轻松上手。

如今的通义App整体界面大做减法,产品设计更加简洁清爽,将提问、对话、图片理解与生成、翻译、写作等多种核心以及常用的功能放到最显眼的位置,主智能体“邻家女孩”这一富有亲和力的新形象,能胜任大部分应用场景中的需求,保证了所有用户都能轻松体验。

新版通义App在其他方面的设计和调整,也进一步降低了用户使用的门槛。例如左滑便可直接看到对话记录、我创建的、我聊过的智能体等资产沉淀,右滑就是通义过去积累起来的智能体平台,有非常丰富的专业智能体,比如AI视频、健康顾问、AI生图、AI扩图、表情包大师等等,通过这些名称更直观地找到自己所需的信息,并且整体界面显得清爽了不少。

另外,通义App在视觉呈现上也下足了功夫,色彩搭配舒适,功能排版清晰,各种功能按钮的位置设置合理。可以说,通义App通过这些贴心的设计,让千问3的强大能力得以更好地展现,也让用户更加愿意沉浸其中,探索AI的无限可能 。

从榜单到场景,千问3真正做到了“能上手、能落地”,而当每个开发者都能基于这套最强开源底座创造价值,当每个用户都能通过一个好用的App去释放AI潜力,这种让最强AI触手可及的普惠性,或许才是千问3以及通义App定义的最强新内涵。

  这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

二、如何学习大模型 AI ?


🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

 

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

*   大模型 AI 能干什么?
*   大模型是怎样获得「智能」的?
*   用好 AI 的核心心法
*   大模型应用业务架构
*   大模型应用技术架构
*   代码示例:向 GPT-3.5 灌入新知识
*   提示工程的意义和核心思想
*   Prompt 典型构成
*   指令调优方法论
*   思维链和思维树
*   Prompt 攻击和防范
*   …

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

*   为什么要做 RAG
*   搭建一个简单的 ChatPDF
*   检索的基础概念
*   什么是向量表示(Embeddings)
*   向量数据库与向量检索
*   基于向量检索的 RAG
*   搭建 RAG 系统的扩展知识
*   混合检索与 RAG-Fusion 简介
*   向量模型本地部署
*   …

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

*   为什么要做 RAG
*   什么是模型
*   什么是模型训练
*   求解器 & 损失函数简介
*   小实验2:手写一个简单的神经网络并训练它
*   什么是训练/预训练/微调/轻量化微调
*   Transformer结构简介
*   轻量化微调
*   实验数据集的构建
*   …

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

*   硬件选型
*   带你了解全球大模型
*   使用国产大模型服务
*   搭建 OpenAI 代理
*   热身:基于阿里云 PAI 部署 Stable Diffusion
*   在本地计算机运行大模型
*   大模型的私有化部署
*   基于 vLLM 部署大模型
*   案例:如何优雅地在阿里云私有部署开源大模型
*   部署一套开源 LLM 项目
*   内容安全
*   互联网信息服务算法备案
*   …

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值