成本1/68,超越Opus?体验DeepSeek V3.1一夜后,我怀疑它有人格分裂

前言

就在昨天晚上,DeepSeek 官方正式宣布,旗下线上版本模型已更新迭代,正式升级 DeepSeek V3.1

图片

根据 DeepSeek 官方发布的信息以及社区内部的初步测试,V3.1 版本的主要更新点如下:

1. 上下文窗口扩展

线上版本(网页、App、小程序)的上下文窗口从 64K 扩展到了 128K。

2. 编程能力提升

在 Aider 编程基准测试中,V3.1 拿下了 71.6% 的高分,首次超过了之前霸榜的 Claude 4 Opus,而且完成相同任务,Opus 花了 69 美刀,而 V3.1 只用了 1.01 美刀,成本是人家的 1/68

3. 架构变化剧透

细心的网友发现,模型界面里的“深度思考”按钮,从【深度思考(R1】变成了【深度思考】:

图片

图片

同样开启深度思考,之前回复 R1,现在却是 V3。看来 V3.1 确实已经开工了。

内部新增的 4 个特殊 Token,也暴露了它的“进化”方向:

  • <|search begin|> (id: 128796)
  • <|search end|> (id: 128797)
  • <think> (id: 128798)
  • </think> (id: 128799)

<|search begin|> & <|search end|>: 这几乎是明示,V3.1 内置了更原生的搜索能力,遇到知识盲区能自己“上网”,这让它在处理需要实时信息的任务时更得心应手。

<think> & </think>: 显式地触发或标识模型的“思维链”过程,意味着模型在解决复杂问题时,可以显式地开启一个“思考过程”,一步步进行逻辑推演和规划。

那,作为大家的测评博主,我自然是第一时间冲了上去,经过一晚上的极限拉扯和深度“拷问”,我得出了一个结论:这模型,有点东西,但不多,甚至有点“分裂”……

被问了 1086 遍的简单题

这些常规问题,就像开餐前的小咸菜,对于 V3.1 来说确实是 So Easy,这里就不赘述了!

图片

图片

推理能力

我们直接上硬菜—推理。我搬出了那个经典的“星球殖民”问题,要求它作为首席战略官,在三个各有利弊的候选行星中,为公司选择最佳的殖民目标。

提示词如下:

你是太空探索公司的战略官,有三个有独特优、劣势的候选行星

Alpha Centauri Bb: 距离近,但地质活跃(高地震风险),大气层稀薄,有少量可开采的稀有矿物。

Kepler-186f: 宜居带,有液态水和茂盛植被,但距离遥远(航行时间长,成本高),且有未知微生物风险。

Proxima Centauri b: 距离适中,有大气层但无液态水,有大量普通矿物,但受到恒星耀斑影响(辐射)。

启动资金:500 亿美元。

技术:高级地质工程、生物圈建造、辐射防护。

战略偏好:长期可持续性 > 初期成本 > 风险规避。

目标:20 年实现自给自足,开始向地球输出资源或技术。

请分析并推荐最佳的殖民目标行星。

V3.1 的回答很好,考虑到了分析人类长期发展的历程和战略发展阶段需要的资源等:

图片

图片

图片

为了验证它的实力,我把同样的问题抛给了以推理见长的 Gemini 2.5Pro:

图片

图片

图片

图片

Gemini 的回答同样出色,但是 V3.1 在数据层面(如光年、辐射细节)的阐述上可能更胜一筹。

科研辅助能力

我让它帮我想一个多模态 AIGC 内容检测方向的顶会论文 Idea。

提示词如下;

我是一个博士生,我最近在研究多模态 AIGC 内容的检测,请帮我想一种学术价值、创新价值都很好的 idea,我想发顶会!

它的确给出了几个技术上可行的方向,这些点子都还不错,够新,也够硬核,但是 AI 搞科研的通病还是有,就是在“Storytelling”(包装一个引人入胜的学术故事的能力)上,还稍显欠缺。

它能给骨架,但血肉和灵魂,还得靠人类自己。

编程开发能力

这是本次测评的重头戏!既然 Aider 榜单都登顶了,那必须得好好盘盘它。

音乐播放器视频

我给了它一个不小的挑战,做一个实时分析音乐频谱和节拍改变背景的网页播放器。

提示词:

帮我开发一个基于 Web Audio API 的网页播放器,我希望你实时分析音乐频谱和节拍,配合驱动一个动态生成的、响应音乐情感的抽象视觉背景

结果,超乎预期!

代码给得又快又好,没修改就能丝滑跑起来,音乐上传流畅,最关键的是,网页里的视觉动效真的和音乐的节奏、强度完美匹配。氛围感直接拉满!

经典六边形小球

正当我以为找到了“编程之王”时,画风突变。我随手试了一下经典的 p5.js 考题:

20 个小球在旋转的 6 边形内弹跳,考虑重力,弹力,摩擦力等物理规律。 用 p5js

结果……它给我交了这么个答卷:

第一次尝试: 小球不仅没有物理感觉,还全都跑到了六边形外面!你是自由的,但不是这么个自由法啊!

我以为是我的提示词不够清晰,于是强调了“小球必须在六边形内部!

V3.1“猛猛忙活”了一番后,给了我第二版

好了,这次还是在外面,而且,你们这是在蹦迪吗?说好的物理规律呢?

图片

给我整不会了。看来,它对需要精确物理引擎模拟的场景,理解得还不到位。

模拟全息宇宙

不死心的我,决定再考验一下它的审美和前端设计能力。我让它生成一个“动态三维全息宇宙”的网页背景,要求是未来感、科技感、线条网格、粒子效果……

提示词如下:

请帮我生成一个全屏的、具有未来感和科技感的网页背景,模拟一个动态的三维全息宇宙。视觉上,它呈现出透明、发光的线条、网格结构和微弱的粒子效果。动态方面,宇宙中的星系或结构应该缓慢旋转、粒子(星辰)缓慢漂浮和闪烁

朋友们,这是真实存在的吗?

图片

这浓郁的、仿佛来自 10 年前的网页审美,这和“三维全息宇宙”不能说一模一样,只能说毫无关系。

我甚至开始怀疑是不是我的提示词写的有问题……

超长上下文写作能力

最后的重头戏,必须是这次更新的超长上下文。为了避免它“博闻强记”读过现有文章,我决定让它原创一篇鸿篇巨著。

我的“发疯”提示词:

请以马斯克、特朗普、扎克伯格、黄仁勋为主要人物,发挥你最大的想象力,生成一篇长篇小说,题材是爱情。最好十万字以上,每到一万字你就在文章中提醒一下。

模型接到指令后,真的“文思泉涌”,下笔如有神,各种“虎狼之词”层出不穷,场面一度十分混乱……

图片

结果非常戏剧性的事情发生了,要不是录屏了,我都没处说理!

模型狂写了一万字后,突然戛然而止,所有的思维过程、历史输出全部消失,然后冷冰冰地甩给我一句:“这个问题我无法回答。

图片

我当时就懵了!这是写到关键情节,触发了什么奇怪的伦理审查机制?还是超长文本生成导致的缓存崩溃?

就在我不知所措,准备放弃的时候,我抱着试一试的心态,又问了它一次,然后,它又若无其事地开麦了:

图片

仿佛刚才那个拒绝服务的模型根本不存在。这“失忆”又“恢复”的无缝衔接,让我觉得它真的是人格分裂!

*结语*

经过这一夜的深度体验,我对 DeepSeek V3.1 的画像也逐渐清晰:

  • 优点:

    • 逻辑推理能力不错,面对复杂的战略性问题能给出有深度的见解。
    • 常规编程能力也非常强悍,代码丝滑而且执行率高,结合其极低的成本,对开发者极具吸引力。
  • 槽点:

    • 物理模拟和复杂算法理解是明显短板,代码“知其然,不知其所以然”。
    • 审美堪忧,在创意和视觉设计方面,我已经无力吐槽了
    • 超长上下文的稳定性存疑,这次的“万字小说翻车事件”表明,它在一些情况下会出现一些意想不到的 Bug。

总而言之,在本测评人的眼里,DeepSeek V3.1 可能不是一个完美的模型,它像一个严重偏科的模型,毕竟我收获到了一些“惊吓”。

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

### DeepSeek AI大模型的技术领域分析 DeepSeek作为一种新兴的人工智能大模型,在自然语言处理(NLP)、计算机视觉(CV)等多个技术方向上展现了强大的能力[^1]。该模型通过大规模的数据训练,能够理解并生成高质量的文字内容,支持多模态数据的理解与交互。 #### 热度评估 从当前互联网社区特别是Bilibili平台上的讨论来看,围绕DeepSeek的话题热度持续上升。许多科技爱好者和技术专家都在积极探讨这一前沿成果的应用前景及其可能带来的变革。这表明市场对于此类先进技术的关注度极高,同时也反映了公众对该领域发展的浓厚兴趣。 #### 潜在价值解析 DeepSeek不仅限于理论研究层面的意义深远;它还具备广泛的实际应用场景。例如,在自动化客服系统中可以实现更加人性化的对话服务;医疗健康行业里可用于辅助诊断疾病;教育领域则能提供个性化学习方案等。这些都将极大地提升各行业的效率和服务质量,创造巨大的社会经济效益。 ```python # Python代码示例:模拟查询B站有关DeepSeek话题的视频数量增长趋势 import requests from datetime import datetime, timedelta def get_video_count(keyword, days=7): url = f"https://api.bilibili.com/x/web-interface/search/all/v2?keyword={keyword}" start_date = (datetime.now() - timedelta(days)).strftime(&#39;%Y-%m-%d&#39;) params = {&#39;start_date&#39;: start_date} response = requests.get(url, params=params).json() return len(response[&#39;data&#39;][&#39;result&#39;]) deepseek_videos_last_week = get_video_count(&#39;DeepSeek&#39;) print(f"过去一周内关于&#39;DeepSeek&#39;的新发视频数:{deepseek_videos_last_week}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值