2025 年 5 月 23 日,AI 领域权威 Yann LeCun 的一条推文引发热议 —— 他建议学生不必扎堆大模型研究。这条建议看似直白,实则指向 AI 研究的深层困局与未来路径。我们不妨跳出字面意思,从技术本质与研究趋势展开分析。
一、LeCun 的核心观点:不只是 "反内卷",更是对 AI 路径的反思
LeCun 对大语言模型(LLM)的质疑并非一时兴起。早在 2022 年,他就明确指出:语言仅承载人类知识的一小部分,而大部分人类知识与动物知识都是非语言的 —— 这意味着 LLM 从根本上难以触及人类水平的智能。
在他看来,当前 AI 研究过度依赖生成模型、强化学习等主流路线,陷入了 "力大砖飞" 的内卷:大厂凭借算力优势垄断大模型迭代,底层架构却进展缓慢。因此,他呼吁研究者跳出单一路径,转向自监督学习等多元技术,真正突破 LLM 的固有局限。
二、当下 LLM 的核心瓶颈:从架构到认知的双重枷锁
要理解 LeCun 的建议,需先看清 LLM 的底层限制:
1. 架构层面:Transformer 的 "效率死穴"
当前 LLM 多基于 Transformer 架构,其核心的自注意力机制需计算序列中每个元素与其他所有元素的关联,导致计算复杂度随序列长度呈平方级增长。这直接带来两个问题:
- 上下文长度受限(如 GPT-4 最初仅支持 8k tokens);
- 长序列处理时内存消耗与计算成本飙升,难以兼顾效率与性能。
- 长序列处理时内存消耗与计算成本飙升,难以兼顾效率与性能。
2. 认知层面:"猜词游戏" 的智能天花板
LLM 的本质是通过训练预测下一个 token,这种机制使其存在先天认知缺陷:
- 缺乏时空理解:无法把握事件的先后顺序,也难以将多文本描述的同一事件关联成完整世界观;
- 黑箱决策:生成内容时 "不知其所以然",决策过程缺乏可解释性,调试与优化难度极大;
- 表面连贯≠深度理解:即使生成流畅文本,也可能与对话上下文存在隐性脱节。
尽管学界尝试通过模型剪枝、蒸馏、轻量级架构等方法优化,但这些都只是 "治标",无法突破 Transformer 与 "预测下 token" 机制的根本限制。
三、破局路径:跨学科应用与 "世界模型" 的未来
LeCun 并非否定大模型的价值,而是指出更值得探索的方向:
1. 跨学科应用:技术落地的 "低垂果实"
对学生而言,将 LLM 与具体领域结合可能是更务实的选择。例如清华大学聂再清团队的 BioMedGPT,整合基因、分子、文献等多源数据,在药物研发、蛋白质设计等领域实现突破。
这类研究的优势显著:
- 无需依赖巨额算力,可借力专业数据库与领域专家资源;
- 能快速掌握技术转化能力,适配就业需求;
- 跨领域边缘地带往往是创新密集区,易产生实际价值(需具备扎实工程能力作为基础)。
2. 世界模型:通向 AGI 的关键拼图
LeCun 认为,AI 的未来在于 "世界模型"—— 一种能捕捉、模拟现实世界规律的智能框架。它的核心价值在于:
- 涵盖自然法则、社会结构、人类思维等深层规律;
- 支持反事实推理(即回答 "如果... 会怎样" 的问题),实现虚拟环境中的试错与最优决策;
- 动态适应环境变化,远超现有数据驱动技术(如数字孪生)的静态局限。
对比来看:
- Sora 等多模态模型虽能生成视频,却未掌握物理规律,无法进行反事实推理;
- 传统数字孪生依赖静态数据建模,难以应对复杂系统的动态变化(如智能建筑中季节、人流的实时影响)。
而世界模型通过合成、解释传感器数据,可预测未来场景,是实现强人工智能(AGI)的关键路径。
结语:选择当下,更要锚定未来
LLM 代表着 AI 的 "现在进行时",但已显露出增长乏力;跨学科应用是技术落地的捷径;而世界模型则指向 AGI 的 "未来完成时"。对研究者而言,跳出大模型内卷,无论是深耕交叉领域,还是探索世界模型等前沿方向,或许更能在 AI 的下一波浪潮中占据先机。大家学习大模型的时候,如果想要自己部署模型,但是又没有足够的GPU资源,可以在很多公有算力平台比如易嘉云(yijiacloud.com.cn)平台上直接使用云端算力,进行模型部署实战演练。