深度学习技术前沿-CSDN博客

转载 Grok 二次元「小姐姐」，攻陷了整个互联网

X 网友 Anthony Franco 发文表示，此次推出的「伴侣」，一个是 Ani，这个女性被设计成挑逗又轻浮的形象，另一个是 Rudy，这是一个粗鲁的卡通人物，甚至会想让联想到《银河护卫队》里的「火箭」角色。在测试时，编辑部选择的语言是中文，不外乎出现了经典外国人念拼音式的中文发音，用词也非常拗口、不口语化，非常浓重的大模型生成的文本味，但 90% 的内容是可以听懂的，而且在发音时口型与说话内容适配得很好，流畅度很高。开发者现在仅需通过提示词，就能生成一个完整的、可玩的游戏。

2025-07-18 13:01:11

转载华南理工校友，她创造了4o吉卜力爆款，加盟Meta

另外，刘璐在读书期间还一直和国际上的行业专家开展合作研究，例如新南威尔士大学的Fethi Rabhi教授和Lina Yao教授，以及加拿大麦吉尔大学的William Hamilton教授、Google Brain的Hugo Larochelle和美国华盛顿大学的Tianyi Zhou。更早之前，刘璐在谷歌工作，还曾参与过。：曾在谷歌大脑任职，提出过CoT、指令微调，还发表了有关大模型涌现能力的论文，目前仍然在OpenAI任研究员，也是o1系列模型的功臣之一。

2025-07-17 13:00:37 7

转载 LeCun被架空？Meta 2万亿「巨兽」宣布闭源。。。

考虑到这场AI竞争中，中美之间的特殊关系，老美那边可能要集体转闭源了，即使是谷歌DeepMind都要求研究员的成果必须在半年后才能发布，否则就开除。知情人士透露，Meta已经完成了其2万亿参数「巨兽」Behemoth模型的训练工作，但由于内部表现不佳，推迟了该模型的发布。纽约时报透露，Alexandr Wang在内的一些核心实验室成员，正在讨论放弃Meta的开源模型，转而开发闭源模型。知情人士称，在会议上他表示，他所在的小型团队的工作将是私密的，但整个 Meta AI部门现在都将致力于实现超级智能。

2025-07-16 13:00:18 8

转载 Mamba作者再发颠覆性论文H-Net：冲向无Tokenizer时代！

最后，在 tokenization 启发式方法效果较弱的语言和模态（如中文、代码或 DNA 序列）中，H-Net 相比 tokenization 流程的优势进一步扩大（数据效率较基线提升近 4 倍），这证明了真正端到端模型从未经处理数据中实现更优学习和扩展的潜力。即使使用 Llama3 tokenizer，本文发现 H-Net（2-stage）在中文和代码处理上，比 BPE Transformer 和 H-Net（space）具有更好的扩展性（图 5），并且在衰退阶段后实现了更低的压缩率（表 4）。

2025-07-15 22:40:27 16

转载 “年薪1亿美元”AI研究员，中科大少年班天才

在伊利诺伊大学厄巴纳 - 香槟分校获得博士学位，师从AI视觉一代华人教父黄煦涛，打下了扎实的学术基础。他的研究领域主要包括深度学习和高性能计算。他本科毕业于中国科学技术大学少年班计算机科学专业，本科期间在大大小小的比赛中初露头角，拿下了。在加入谷歌前，他曾在微软亚洲研究院、旷视研究院、Adobe、Jump Trading。、百度美国研发中心、英伟达都实习过，从底层框架到高效算法，再到视觉应用，。近日，一个在中文互联网几乎隐形的名字，却让硅谷两大AI巨头撕破脸皮。浙江慈溪人，高二就被招去中科大少年班，。

2025-07-14 13:00:31 17

转载 OmniGen2开源神器，一键解锁「哆啦 A 梦」任意门

随后，随着 Gemini 2.0 Flash 和 GPT-4o 等闭源多模态模型的相继发布，构建统一图像生成模型成为当前最受关注的研究与应用方向之一。同时，先前的基准使用 CLIP-I 和 DINO 指标来评估上下文生成的图像的质量。然而，对于图片上下文参考生成（in-context generation) 任务，目前还缺乏完善的公共基准来系统地评估和比较不同模型的关键能力。反思数据由文本和图像的交错序列组成，首先是一个用户指令，接着是多模态模型生成的图像，然后是针对之前生成输出的逐步反思。

2025-07-13 13:00:35 14

转载毕业7年，身价破亿！

根据《The Pragmatic Engineer》和levels.fyi的数据，有五年以上经验的程序员，如果能进OpenAI、Anthropic或者像Jane Street这样的AI重仓对冲基金，年薪中位数可以轻松破40万美元（约合人民币290万+）。要知道，一直以来，OpenAI员工拿到可不是传统的股票期权，而是一种叫「利润单元」的东西，说白了就是：你拿不到股份，但公司赚钱你能分红。数据显示，大科技公司对应届生的招聘减少了25%，向来灵活的初创公司也收紧入口，对应届生的招聘减少了11%。

2025-07-12 13:00:28 30

转载谢赛宁团队论文爆雷，暗藏AI好评提示震碎学术圈！

最后，谢赛宁引用了一项亚马逊博士后Gabriele Berton的民意调查，有45.4%的人认为植入隐藏提示，可以被接受。他认为，真正的症结在于现行制度存在漏洞，与伪造数据等传统学术不端不同，这是AI时代催生的新问题，需要更深入的伦理讨论。而如今，网友joserffrey爆出大瓜，「NYU助理教授、AI大神谢赛宁带队的论文，也卷入了这场AI作弊的风暴」。论文中的学生作者，是日本的短期访问学者，对于Jonathan过于当真，直接把人家的套路照搬，用在了EMNLP投稿里。相关人士也正在制定更完善的政策。

2025-07-11 13:00:22 18

转载半数清华，8位华人AI天团集体投奔Meta！年薪上亿

背景：中国科学技术大学少年班的毕业生，曾分别任职于在微软、旷视、Adobe、Snap、百度、英伟达和谷歌等。后成为谷歌 DeepMind 的首席研究员，在开发 Gemini 人工智能模型方面发挥了关键作用，特别是在后训练和推理等领域。毕业后他加入 OpenAI，曾参与o1-mini和 o3-mini研发，并领导一个专注于后期训练的团队，o1项目的核心贡献者。2、天生的商业嗅觉者：在还没有LLM时，已洞察到「数据」在AI领域的重要性，便在2016年创办数据标注公司Scale AI；

2025-07-10 13:01:08 49

转载清华副教授，当选院士！成为AOI最年轻院士

长期以来，王亚星致力于推动眼科基础研究与临床转化融合发展，研究领域涵盖青光眼及高度近视并发症早期诊断、眼科流行病学、眼科影像及医工交叉、眼科影像及流行病学等，取得了一系列具有国际影响力的成就。王亚星现任清华大学医学院长聘副教授、研究员、博士生导师，北京清华长庚医院眼科中心研究员、副主任医师，担任北京市视觉科学与转化医学研究中心（BERI）执行主任。由于在眼科领域的一系列研究成果，今年4月，王亚星在印度新德里举办的第40届亚太眼科大会（APAO 2025）上入选“亚太眼科百强榜”。旗下EYE 等期刊编委。

2025-07-08 13:00:37 23

转载图灵奖大佬向97年小孩哥汇报？小扎1亿年薪买新贵。。。

Zhu甚至透露说，为了将实验进行到底，自己不得不在其他团队的集群中寻找闲置的GPU，甚至不断更换GPU，而且为了不耽误其他团队的进度，自己的使用时间只能在夜晚和周末。而且就在今天，微软又曝出了新一轮裁员潮，将有9000人被裁，影响全球近4%的员工，至此，微软今年将总共有18000人被裁。至少，在昨天的风口浪尖之上，他发了这样一条耐人寻味的X：「是首席人工智能科学家，从2018年至今一直都是」。就在五分钟后，邻桌的一个人拍了拍他的肩膀，表示自己也有同样的经历，而且「我的经理说是AI抢了我的工作」。

2025-07-07 13:00:58 13

转载博士太多，高校已经装不下了。。。

原来博士毕业可以很轻松地在高校谋个教职岗，兼顾教学和科研，但如今博士毕业生的数量远远超过了大学和研究机构的职位空缺数量，许多博士毕业后只能去企业参与竞争，相当于所受的科研训练没了用武之地。但学术界的就业岗位数量跟不上博士生数量的增长，继续读博的人，大部分都是在接受「学者」、「科研人员」的思维训练，在和其他面向非学术界的毕业生进行竞争时，优势并不大。在科学和技术相关领域的人比社会科学、艺术和人文领域的人更有可能找到与研究相关的工作，而且「与研究相关的工作」也会带来更高的「工作满意度」。

2025-07-04 13:00:43 26

转载刚刚，马斯克切脑全场震撼！插脑只要1.5秒，26年治愈失明，28年全人类变AI

因此，他们从微加工或光刻技术开始，改变从单个通道看到更多神经元的方式，还进行了混合信号芯片设计，以实际增加物理通道数量，从而增加可以交互的神经元，允许更多信息从大脑流向外部世界。当我们与人交流，实际上就是尝试模拟他们的心理状态，然后把复杂场景压缩成几个单词或按键，这其中必然有损失，你会受限于你说话和打字的速度。，就是能在任何地方监听神经元，能向任何地方的神经元写入信息，能实现快速数据无线传输，以实现生物大脑与外部机器之间的高带宽连接。而且，还得做到能和大脑实现信息传输，同时不伤害大脑。

2025-07-03 13:00:39 24

转载 PINN又爆创新！算法小改，百倍加速！

论文提出了一种名为MaD-Scientist的新方法，利用基于物理信息神经网络（PINN）的大量先验数据，通过Transformer架构和贝叶斯推理，以零样本学习的方式解决对流-扩散-反应方程等偏微分方程（PDEs）。论文创新性地提出了一种名为Stiff-PINN的新方法，通过应用准稳态假设（QSSA）来降低化学动力学问题中的刚性，从而显著提升了PINN在解决刚性常微分方程（ODEs）系统时的性能和准确性。首次将PINN应用于刚性化学动力学问题，揭示了PINN在处理刚性常微分方程系统时面临的挑战。

2025-07-02 13:00:23 37 1

转载重磅：世界顶级数学家张益唐回国，全职加盟中山大学！

在1900年的国际数学家大会上，数学家希尔伯特发表著名演讲，提出了23个有待解决的重要数学难题和猜想，其中最古老的“孪生素数猜想”是第8个问题中的一个小问题，被认为是数论史上的经典难题，张益唐的“上一份成就”是，2013年在《数学年刊》发表《质数间的有界间隔》，证明了存在无穷多对质数间隙都小于7000万，从而在孪生素数猜想这一数论重大难题上取得重要突破。基础数学、基础科学的这个研究，它不仅将来会具有潜在的应用，它也是衡量一个民族，一个国家，你的文化程度，你的发达程度，这一点是不能忽略的。

2025-07-01 13:00:44 19

转载刚刚，OpenAI苏黎世办公室被Meta一锅端，扎克伯格挖走三位技术负责人

OpenAI CEO 山姆・奥特曼在周二的一次活动上表示，他并不担心扎克伯格的闪电战：「这就像是，扎克伯格正在做一些新的疯狂的事情。」上周，奥特曼表示，他手下最优秀的人才并没有离开去 Meta。去年 12 月，他们离开了谷歌 DeepMind 的苏黎世办公室，加入了 OpenAI 并成立了 OpenAI 的苏黎世办公室。他在 2018 年于德国亚琛工业大学完成了自己的高等学业，期间曾在谷歌以实习生身份从事过研究工作，也在 Kindred.ai 担任过 AI 工程师，在德国亚琛工业大学担任过研究助理。

2025-06-30 13:00:56 34

转载 ICCV 2025放榜！录取率24%

当前的评审系统可以被视为三方（即作者、审稿人和系统/会议方）之间的互动，这三方共同对当前的问题负有责任。特别是近年来，LLM、生成式 AI 等颠覆性技术的出现，进一步点燃了全球研究者的热情，催生了大量的研究论文。近年来的会议也包含了越来越多的专题研讨会和商业展览。对比前几届数据，2025 年的投稿量几乎接近 2019 年的三倍，这反映了计算机视觉领域的快速扩张和学术研究的日益活跃。尽管投稿数量大幅增加，ICCV 的录用率在过去几年中保持了相对稳定，基本维持在 25% - 26% 的区间内。

2025-06-29 13:00:57 59

转载清华“天才少年”任英伟达首席研究科学家，黄仁勋亲自下场挖人

他最近的研究重点是生成式AI与基础模型，涵盖了从数据策管、预训练、有监督微调、指令微调、基于人类反馈的强化学习（RLHF）、模型推理，到构建防御「越狱」和「提示词注入」攻击的安全护栏等全链条技术。此外，他也对统计机器学习、优化、机器学习系统的隐私与安全、强化学习、机器学习的经济学视角，及其在自然语言处理、代码生成、计算机视觉、自动驾驶和机器人等领域的应用有广泛兴趣。Arena-Hard-Auto：一种自动化的基准创建流水线，采用「大语言模型即裁判」（LLM-as-a-judge）的模式来快速评估模型性能。

2025-06-28 22:00:39 760

转载 CV大牛何恺明正式官宣入职谷歌！

2021 年 11 月，何恺明以一作身份发表论文《Masked Autoencoders Are Scalable Vision Learners》，提出了一种泛化性能良好的计算机视觉识别模型，同样是刚刚发表就成为了计算机视觉圈的热门话题。一个初入 AI 领域的新人，在探索的过程中看到很多重要研究主要作者都是何恺明，经常会不由得感到惊讶。我们也经常赞叹于何恺明工作的风格：即使是具有开创性的论文，其内容经常也是简明易读的，他会使用最直观的方式解释自己「简单」的想法，不使用 trick，也没有不必要的证明。

2025-06-27 11:31:25 23

转载 28岁掌舵Meta超级AI！小扎掷千亿，新「王」登顶

从本质上说，AI数据工作的重点就是在模型尚未掌握、还存在缺陷的地方。因此，Scale的定位是：一方面支撑整个行业的数据基础，另一方面，也帮助企业和政府在自己的数据之上构建和部署AI应用。如果你参考副总统JD Vance在巴黎AI峰会的演讲，他明确提到当前政府聚焦于美国工人的利益，并承诺确保AI对他们是有利的。Alexandr Wang身上还有华裔的标签，但是他却表现得非常反华，不论是参与政治的程度，还是过往和当下的言论。而我们所做的，就是给予数据应有的尊重——我们会深入研究：怎样才是正确的解决方式？

2025-06-26 11:30:34 27

转载 CS博士求职8个月 0 offer，绝望了。。。。

哈佛的研究显示，历史和社会科学专业的毕业生，长期收入可能超过工程和计算机同行，因为他们掌握了沟通、协作、批判性思维等「软技能」。Chris的困境并不是孤例，过去三年，美国22-27岁人群的总体就业率微增，但计算机和数学岗位就业率却暴跌8%。纽约联邦储备银行上周公布的数据显示，截至3月，应届毕业生的失业率为5.8%，高于一年前的4.6%。事实证明，AI在写代码方面的价值，甚至超过文字创作，直接威胁到初级程序员的饭碗。Chris苦笑道，「我身处AI革命，专攻AI技术，到头来却连一份工作也找不到」。

2025-06-25 11:31:02 17

转载画饼十年终兑现！马斯克 Robotaxi 上线，核心人物为华人工程师，武汉理工大学毕业

他在2019年7月加入特斯拉，从事机器学习研究——时间上看，正是在特斯拉自动驾驶日之后，当时，马斯克画了个大饼：要在2020年部署100万辆Robotaxi（doge）。此前，华尔街研报曾指出，特斯拉Robotaxi的纯视觉方案，对比Waymo会更加便宜，具体地说，Waymo的整车成本是特斯拉Robotaxi的七倍。根据《埃隆·马斯克传》的说法，当时，段鹏飞“连轴转了几个月，没有休息一天，实在太累了，感觉被榨干了”，于是，在自动驾驶日之后，段鹏飞离开了特斯拉。还有，特斯拉的人也太“卷”了。

2025-06-24 11:30:33 64

转载重磅：2026QS世界大学排名公布！72所中国内地高校上榜 | 附内地高校名单

其中提升最大的是南京大学，其排名从全球第145位跃升至103位。本次排名共收录了来自106个国家和地区的1500多所大学。北京大学、清华大学、复旦大学、上海交通大学、浙江大学。此外，在全球高校排名中国内地高校进入全球。2026QS世界大学排名中国内地高校名单。北京大学和清华大学跻身全球前20，本文来源：QS世界大学排名、高绩。全球前100的中国内地高校还有。5所高校跻身全球TOP100。进入本次QS世界大学排名，45%的高校排名有所上升。欢迎大家加入DLer-长按识别，邀请您进群！的发展势头依然强劲，

2025-06-23 11:30:27 200

转载大模型创业有多火？13岁就当CEO了。。

目前，FloweAI每天都在持续进行快速迭代更新，未来计划扩展更多功能，例如Gmail邮件管理等，团队对其发展充满信心，预计未来每月可以稳定赚取1万美元。例如一位美国10岁的四年级学生，正在开发一款能24/7全天候监控个人手机号码，并在其被标记为垃圾邮件或诈骗时，发出警报的SaaS工具。值得注意的是，像Michael Goldstein一样的年轻创业者并非个例，在他的社交平台下，也涌现出其他年轻的AI创业者。网友们的实测反馈也类似，例如加入矩形框虽然提升了画面层次感，但还是存在文字与框体大小不适配的情况。

2025-06-22 11:30:26 17

转载何恺明CVPR最新讲座PPT上线：端到端生成建模

识别可以被看作是一个「抽象」的过程：我们从丰富的原始数据（如图像像素）出发，通过网络的多层处理，逐步提取出越来越抽象的特征，直到最终得到一个高度抽象的分类标签或嵌入。而生成则恰恰相反，它是一个「具体化」的过程：我们从一个抽象的表示（比如一个随机噪声或概念向量）开始，通过网络的多步转换，逐渐将其具体化，最终生成出具有复杂细节的真实数据。Flow Matching 为训练生成模型提供了一种强大的方法，它能够构建出 ground-truth 场，这些场是隐式存在的，并且与具体的神经网络结构无关。

2025-06-21 11:30:56 24

转载仅凭一篇技术博客，他成功入职OpenAI！

关于在发论文和「速通技术」之间，Keller Jordan的看法依然和半年前一样，今日他转发了一则2月份的自己的推文，表示虽然Muon火了，也帮他进入了OpenAI，Keller Jordan的意思很明显，相比于arXiv上的一篇大概率被「淹没」的论文，还不如老老实实的继续研究自己的「优化器」。人工智能发展速度飞快，模型训练始终是其核心环节，而优化器则扮演着至关重要的角色，它负责调整模型的参数，让模型在数据上表现得更好。但不幸的是，在学术界，激励机制有些错位。随后，又在维也纳复杂性科学中心担任访问研究员。

2025-06-20 11:31:29 18

转载 CVPR史上首次！中国车厂主讲AI大模型，Scaling Law首次在自动驾驶赛道被验证！

据刘先明介绍，研发团队训练了从10亿到720亿等不同尺寸的模型，持续向模型「投喂」更大规模的训练数据，他们清晰地看到了Scaling Law的显现，也就是说，模型参数越大、模型学习的数据越多，模型的性能越强。由此，模型仿佛具备开车能力和思考能力的「大脑」，能让汽车像人类一样主动思考和理解世界，处理训练数据中从未见过的长尾场景，而非机械执行程序员写好的规则。规则时代的自动驾驶模型，也能解决大部分常见的驾驶问题，但无法处理那些罕见的、复杂的、事关安全的长尾问题，也即corner case。

2025-06-19 11:31:23 45

转载何恺明大神新作：大道至简，性能强悍！

举个例子，对于论文《Barlow twins: Self-supervised learning via redundancy reduction》中定义的损失（它计算一个批次中两个增强视图的归一化表征之间的互协方差矩阵），将 D×D 互协方差记为 Cov，其元素以 (m,n) 为索引。由于不会在一个批次中使用同一图像的多个视图，因此该项始终对应于一个恒定且最小的差异度，例如在ℓ₂ 的情况下为 0，在余弦情况下为 -1。因此，与对比学习不同，它既不需要双视图采样、专门的数据增强，也不需要额外的编码器。

2025-06-17 11:31:08 55

转载 1200行代码开源，DeepSeek大神又放大招了！

有意思的是，根据其 GitHub 主页，他还曾开发过一个植物大战僵尸 Qt 版，该项目也已经收获了 270 多星。开源社区的人应该对 vLLM 不陌生，它是一个由加州大学伯克利分校团队开发的高性能、开源 LLM 推理和服务引擎，核心目标是提升 LLM 的推理速度（吞吐量）和资源利用率（尤其是内存），同时兼容 Hugging Face 等流行模型库。基准测试结果如下表所示，Nano-vLLM 与 vLLM 的输出 token 相同，时间略长，推理速度（吞吐量）稍逊一点点。一是，快速离线推理。

2025-06-16 11:30:41 43

转载谢赛宁、贾扬清获奖！牛津华人博士生拿下CVPR 2025最佳论文

Longuet-Higgins奖以理论化学家和认知科学家H. Christopher Longuet-Higgins的名字命名，授予的是在10年前发表且对计算机视觉研究产生重大影响的CVPR论文。今年获得该奖的论文共有两篇。CVPR 2025官方还公布了各细分领域的论文接收情况：图像与视频生成领域的接收数量最多，而多视角/传感器3D和单图像3D领域的接收率最高。他的博士研究专注于打造创新的端到端几何推理框架，主导开发了PoseDiffusion、VGGSfM，以及本次提出的通用3D基础模型VGGT。

2025-06-15 12:00:50 92

转载 MIT博士：仅需几十行代码，GPU利用率高达70%

另据悉，他们从原始 LaCT 块中移除了窗口注意力层，将滑动窗口注意力（SWA，sliding window-attention）层直接集成到大块测试时训练层中，并将模型与全注意力模型、门控线性注意力（GLA，Gated Linear Attention）和 DeltaNet 进行了比较。对于场景级评估，研究团队采用挑战性较高的 DL3DV 场景数据集，其中包含超过 11000 个训练场景和 140 个测试场景，每个场景大约有 300 个视图，评估的分辨率为 960 × 536。

2025-06-14 11:30:43 39

转载 “双院士”挂帅！985，迎来新校长

一直致力于发展与应用第一性原理计算方法与模型研究小分子，原子团簇，固体表面与界面和纳米体系的结构和性质，注重和相关实验研究的配合与合作。1997年任中国科学院选键化学重点实验室副主任，2004年任合肥微尺度物质科学国家实验室理论与计算科学研究部主任, 2009年任化学与材料科学学院执行院长。中央组织部副部长张光军同志到会宣布中央决定并讲话，教育部副部长、党组成员、总督学王嘉毅同志，上海市副市长张小宏同志出席会议并讲话。杨金龙，1966年1月出生，研究生，理学博士，农工党成员，研究员、欢迎大家加入DLer-

2025-06-14 11:30:43 17

转载李飞飞自曝创业经历：世界模型才是未来

但摘下眼罩后，大脑瞬间重构三维空间的能力让我们能精准抓取杯子、避开障碍，这种对物理世界的即时建模才是智能的根基。当年她带领团队开发了一个名为ImageNet的视觉识别系统，这个系统收录了超过1000万张经过精确标注的图片，迅速成为全球规模最大的图像资料库之一，以此彻底改变了计算机视觉和深度学习的研究格局。李飞飞坚信，唯有将最聪明的大脑聚集在“世界模型”这个北极星问题下，才能实现从实验室技术到产品化的跨越。换句话说，语言适合传递抽象概念，但应对实体世界必须依赖空间智能，这正是当前AI最欠缺的能力。

2025-06-13 13:00:20 17

转载史上最大AI投资？百亿重金！最强打工皇帝赢麻了

而且，就在上周，Meta已经宣布与国防承包商Anduril Industries建立全新合作关系，共同为美国军方开发产品，其中就包括一款具备VR和AR的AI头显。具体来说，Scale AI利用其Data Engine中微调后的数据，对Defense Llama的参数进行了配置，这样后者就能应对各类国防相关的场景。之前，Scale AI曾被前雇员起诉，原因是给的薪水太低，而且被归类为合同工而非正式员工，从而被剥夺了病假等福利。这些公司的部分投资，是通过积分来使用其计算能力的。

2025-06-12 11:30:29 163

转载车圈52名高管大调整！7名CEO变动，董事长都换了

夏中谱的职级为21级，直接汇报给理想辅助驾驶研发副总裁郎咸朋。连长安、上汽、一汽、东风、广汽、北汽这6家国有车企都在换人。，担任辅助驾驶感知负责人，向小米辅助驾驶负责人叶航军汇报。理想汽车辅助驾驶端到端模型负责人夏中谱或将于近期离职。俩月超50位高管岗位调整，年中车圈频换防。自今年4月份开始，车圈52位高管岗位大调整。等供应链企业也都传出了人事变动的消息。人事变动的飓风也席卷了全球汽车市场，小米、理想、蔚来等新造车企业。宝马、保时捷、日产、特斯拉。欢迎大家加入DLer-援引36氪汽车消息，

2025-06-11 13:01:00 26

转载手握字节 5000 股期权，想退休了。。

如果这个钱想在一线城市退休的话，我感觉还是比较困难，就算 370 万现在全部放入到银行的大额定期存款，按照现在银行存款利率不足 2%来算的话，可能每年能拿到的利息是 7 万左右，如果再加上一线城市有房贷，那估计更躺不平的了。当然，如果回到二三线城市，有房有车无贷款的话，再加上自己本身是低物质的话，找一个轻松点的工作，那这 5000 股期权的价值在二三线城市还是过的很舒坦的。的价格，如果直接全部一次性变现的话，一下子这么多收入，那么税率是按照最顶 45% 来扣税的了，可能最后。来源：小林Coding。

2025-06-09 11:30:41 43

转载 4位图灵奖得主，2大冠军机器人，一年一度“AI春晚”

此外他还与宇树科技创始人王兴兴，银河通用创始人兼CTO、北京大学助理教授、智源具身智能研究中心主任王鹤，穹彻智能联合创始人、上海交通大学教授卢策吾，北京人形机器人创新中心总经理熊友军，就具身智能的不同技术路线、商业化路径探索、典型应用场景拓展、产业生态构建等议题展开深度讨论。大模型正在从大语言模型向原生多模态大模型，向世界模型方向演进。比如就像原生多模态这个方面的探索，与企业为快速落地而先强化语言模型增添模态的方式不同，智源选择在基础架构上实现模态的统一和泛化，挖掘模型的通用性潜力。

2025-06-08 11:40:16 40

转载北大数学系90后，破解百年数学猜想，担任法国高等研究所常任教授！

这5位数学家每一位都在数学界声名赫赫，包括分别在1998年和2022年获得数学最高奖——菲尔兹奖的Maxim Kontsevich和Hugo Duminil-Copin，2018年菲尔兹奖获得者Peter Scholze的合作者Dustin Clausen等等。此前，1994年菲尔兹奖获得者Jean Bourgain，以及2009年阿贝尔奖获得者Misha Gromov，都是IHES在相关领域的代表人物。IHES的公告中还表示，加入IHES后，王虹将延续IHES在数学分析和几何方面的卓越传统。

2025-06-07 13:00:18 110

转载 MoE训练速度提高70%！华为只用了这3招

针对Pangu Ultra MoE 718B模型，在单卡内存使用约束下，华为通过DeployMind以训练性能为目标找到了TP8/PP16/VPP2/EP32（其中TP只作用于Attention），这一最适合昇腾集群硬件规格的并行方案，综合实现计算、通信、内存的最佳平衡。为解决这一问题，华为团队提出了一种精度无损的动态数据重排方案，其核心在于：通过线性模型量化单样本计算耗时，在严格保持训练精度无损下，批次内采用贪心算法构建最小化耗时的数据重排，实现负载均衡。感兴趣的小伙伴可以再通过完整技术报告深入了解——

2025-06-06 11:31:05 30

转载 Tri Dao大神新作重磅来袭：取代DeepSeek的MLA，专为推理“量身定制”的注意力机制

它关注的是在不同层之间如何融合注意力信息，能减少每一层的冗余计算。尤其在语言建模方面，无论是预训练还是下游评估，Mamba-3B模型都优于同等规模的Transformer模型，并能与两倍于其规模的Transformer模型相媲美。，它通过分组共享KV缓存减少内存占用，在视觉Transformer（ViT）等任务中表现良好，适用于大规模数据处理，目前已应用于Llama 3等开源模型。相比之下，中间传统的多头注意力机制（MHA）每个查询头都有独立的键和值，由于没有共享，导致它需要更多的内存来存储所有的键和值。

2025-06-05 11:31:07 41

空空如也

空空如也