成本1/68，超越Opus？体验DeepSeek V3.1一夜后，我怀疑它有人格分裂

最新推荐文章于 2025-08-22 16:37:41 发布

原创最新推荐文章于 2025-08-22 16:37:41 发布 · 528 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型入门 #大模型学习 #AI大模型 #大模型 #DeepSeek V3 #LLM

前言

就在昨天晚上，DeepSeek 官方正式宣布，旗下线上版本模型已更新迭代，正式升级 DeepSeek V3.1！

根据 DeepSeek 官方发布的信息以及社区内部的初步测试，V3.1 版本的主要更新点如下：

1. 上下文窗口扩展

线上版本（网页、App、小程序）的上下文窗口从 64K 扩展到了 128K。

2. 编程能力提升

在 Aider 编程基准测试中，V3.1 拿下了 71.6% 的高分，首次超过了之前霸榜的 Claude 4 Opus，而且完成相同任务，Opus 花了 69 美刀，而 V3.1 只用了 1.01 美刀，成本是人家的 1/68

3. 架构变化剧透

细心的网友发现，模型界面里的“深度思考”按钮，从【深度思考（R1】变成了【深度思考】：

同样开启深度思考，之前回复 R1，现在却是 V3。看来 V3.1 确实已经开工了。

内部新增的 4 个特殊 Token，也暴露了它的“进化”方向：

<｜search begin｜> (id: 128796)
<｜search end｜> (id: 128797)
<think> (id: 128798)
</think> (id: 128799)

<｜search begin｜> & <｜search end｜>：这几乎是明示，V3.1 内置了更原生的搜索能力，遇到知识盲区能自己“上网”，这让它在处理需要实时信息的任务时更得心应手。

<think> & </think>：显式地触发或标识模型的“思维链”过程，意味着模型在解决复杂问题时，可以显式地开启一个“思考过程”，一步步进行逻辑推演和规划。

那，作为大家的测评博主，我自然是第一时间冲了上去，经过一晚上的极限拉扯和深度“拷问”，我得出了一个结论：这模型，有点东西，但不多，甚至有点“分裂”……

被问了 1086 遍的简单题

这些常规问题，就像开餐前的小咸菜，对于 V3.1 来说确实是 So Easy，这里就不赘述了！

推理能力

我们直接上硬菜—推理。我搬出了那个经典的“星球殖民”问题，要求它作为首席战略官，在三个各有利弊的候选行星中，为公司选择最佳的殖民目标。

提示词如下：

你是太空探索公司的战略官，有三个有独特优、劣势的候选行星

Alpha Centauri Bb: 距离近，但地质活跃（高地震风险），大气层稀薄，有少量可开采的稀有矿物。

Kepler-186f: 宜居带，有液态水和茂盛植被，但距离遥远（航行时间长，成本高），且有未知微生物风险。

Proxima Centauri b: 距离适中，有大气层但无液态水，有大量普通矿物，但受到恒星耀斑影响（辐射）。

启动资金：500 亿美元。

技术：高级地质工程、生物圈建造、辐射防护。

战略偏好：长期可持续性 > 初期成本 > 风险规避。

目标：20 年实现自给自足，开始向地球输出资源或技术。

请分析并推荐最佳的殖民目标行星。

V3.1 的回答很好，考虑到了分析人类长期发展的历程和战略发展阶段需要的资源等：

为了验证它的实力，我把同样的问题抛给了以推理见长的 Gemini 2.5Pro：

Gemini 的回答同样出色，但是 V3.1 在数据层面（如光年、辐射细节）的阐述上可能更胜一筹。

科研辅助能力

我让它帮我想一个多模态 AIGC 内容检测方向的顶会论文 Idea。

提示词如下；

我是一个博士生，我最近在研究多模态 AIGC 内容的检测，请帮我想一种学术价值、创新价值都很好的 idea，我想发顶会！

它的确给出了几个技术上可行的方向，这些点子都还不错，够新，也够硬核，但是 AI 搞科研的通病还是有，就是在“Storytelling”（包装一个引人入胜的学术故事的能力）上，还稍显欠缺。

它能给骨架，但血肉和灵魂，还得靠人类自己。

编程开发能力

这是本次测评的重头戏！既然 Aider 榜单都登顶了，那必须得好好盘盘它。

音乐播放器视频

我给了它一个不小的挑战，做一个实时分析音乐频谱和节拍改变背景的网页播放器。

提示词：

帮我开发一个基于 Web Audio API 的网页播放器，我希望你实时分析音乐频谱和节拍，配合驱动一个动态生成的、响应音乐情感的抽象视觉背景

结果，超乎预期！

代码给得又快又好，没修改就能丝滑跑起来，音乐上传流畅，最关键的是，网页里的视觉动效真的和音乐的节奏、强度完美匹配。氛围感直接拉满！

经典六边形小球

正当我以为找到了“编程之王”时，画风突变。我随手试了一下经典的 p5.js 考题：

20 个小球在旋转的 6 边形内弹跳，考虑重力，弹力，摩擦力等物理规律。用 p5js

结果……它给我交了这么个答卷：

第一次尝试： 小球不仅没有物理感觉，还全都跑到了六边形外面！你是自由的，但不是这么个自由法啊！

我以为是我的提示词不够清晰，于是强调了“小球必须在六边形内部！”

V3.1“猛猛忙活”了一番后，给了我第二版

好了，这次还是在外面，而且，你们这是在蹦迪吗？说好的物理规律呢？

给我整不会了。看来，它对需要精确物理引擎模拟的场景，理解得还不到位。

模拟全息宇宙

不死心的我，决定再考验一下它的审美和前端设计能力。我让它生成一个“动态三维全息宇宙”的网页背景，要求是未来感、科技感、线条网格、粒子效果……

提示词如下：

请帮我生成一个全屏的、具有未来感和科技感的网页背景，模拟一个动态的三维全息宇宙。视觉上，它呈现出透明、发光的线条、网格结构和微弱的粒子效果。动态方面，宇宙中的星系或结构应该缓慢旋转、粒子（星辰）缓慢漂浮和闪烁

朋友们，这是真实存在的吗？

这浓郁的、仿佛来自 10 年前的网页审美，这和“三维全息宇宙”不能说一模一样，只能说毫无关系。

我甚至开始怀疑是不是我的提示词写的有问题……

超长上下文写作能力

最后的重头戏，必须是这次更新的超长上下文。为了避免它“博闻强记”读过现有文章，我决定让它原创一篇鸿篇巨著。

我的“发疯”提示词：

请以马斯克、特朗普、扎克伯格、黄仁勋为主要人物，发挥你最大的想象力，生成一篇长篇小说，题材是爱情。最好十万字以上，每到一万字你就在文章中提醒一下。

模型接到指令后，真的“文思泉涌”，下笔如有神，各种“虎狼之词”层出不穷，场面一度十分混乱……

结果非常戏剧性的事情发生了，要不是录屏了，我都没处说理！

模型狂写了一万字后，突然戛然而止，所有的思维过程、历史输出全部消失，然后冷冰冰地甩给我一句：“这个问题我无法回答。”

我当时就懵了！这是写到关键情节，触发了什么奇怪的伦理审查机制？还是超长文本生成导致的缓存崩溃？

就在我不知所措，准备放弃的时候，我抱着试一试的心态，又问了它一次，然后，它又若无其事地开麦了：

仿佛刚才那个拒绝服务的模型根本不存在。这“失忆”又“恢复”的无缝衔接，让我觉得它真的是人格分裂！

结语

经过这一夜的深度体验，我对 DeepSeek V3.1 的画像也逐渐清晰：

优点：
- 逻辑推理能力不错，面对复杂的战略性问题能给出有深度的见解。
- 常规编程能力也非常强悍，代码丝滑而且执行率高，结合其极低的成本，对开发者极具吸引力。
槽点：
- 物理模拟和复杂算法理解是明显短板，代码“知其然，不知其所以然”。
- 审美堪忧，在创意和视觉设计方面，我已经无力吐槽了
- 超长上下文的稳定性存疑，这次的“万字小说翻车事件”表明，它在一些情况下会出现一些意想不到的 Bug。

总而言之，在本测评人的眼里，DeepSeek V3.1 可能不是一个完美的模型，它像一个严重偏科的模型，毕竟我收获到了一些“惊吓”。

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。