AI接管浏览器，ChatGPT Agent正式上线！

本文链接：https://blog.csdn.net/zzh516451964zzh/article/details/149388155

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

AI科技圈最近一周又发生了啥

OpenAI正式推出 ChatGPT Agent

OpenAI 正式发布 ChatGPT Agent，把 Operator 的网页操控、Deep Research 的信息整合与 ChatGPT 本体的语言理解合三为一，让用户一句话就能让 AI 自主上网、写代码、做 PPT、比价购物并实时展示步骤，随时可打断或接管；在 Humanity’s Last Exam 得 41.6（并行 44.4），FrontierMath 准确率 27.4%，投行建模任务半数以上超越人类基准，Pro 用户每月 400 次，其他付费用户 40 次起，手机端也能用，还能连 Gmail、GitHub 等真实工作流，浏览器正成为 AI 的“杀手级入口”

https://mp.weixin.qq.com/s/UPr9BkYiimI1YXhlBoRLXA

普林斯顿发布最强开源数学定理证明模型Goedel-Prover-V2

普林斯顿携清华、北大、斯坦福等团队开源数学定理证明新模型 Goedel-Prover-V2，32B 旗舰在 MiniF2F 基准 Pass@32 正确率飙到 90.4%，比前 SOTA DeepSeek-Prover-V2-671B 还高出 8 个百分点；更夸张的是，8B 小模型就能与 671B 前辈打成平手。PutnamBench 上，它仅用 Pass@64 就解出 64 题，碾压 DeepSeek 用 Pass@1024 才拿到的 47 题。秘诀在于“分层式数据合成+验证器引导自我修正+模型平均”三板斧，官方已放出模型、训练数据与新 360 题 MathOlympiadBench，供研究社区直接开玩

http://blog.goedel-prover.com

碾压Whisper，Mistral开源Voxtral语音模型

Mistral AI发布首个开源语音理解模型系列Voxtral，24B与3B双版本Apache 2.0开源，支持32 k token上下文，一口气搞定30分钟音频转录或40分钟语义理解，在英语短音频、Mozilla Common Voice、FLEURS多语言等基准的词错率全面超越Whisper large-v3，并在法语、德语直接登顶；同时，Voxtral Small在内部40条长音频问答测试中与GPT-4o mini、Gemini 2.5 Flash打成平手，FLEURS语音翻译榜单冲至第一。更接地气的是，Voxtral Mini转录成本不到Whisper一半，Voxtral Small对标ElevenLabs Scribe也只需一半预算，未来几周还会上线网页与移动端语音模式，后续还将追加说话人分割、情绪标记、词级时间戳等新技能

https://mp.weixin.qq.com/s/OVO8e5MwATdD-SfUvmcNNQ

百度推出TizzyAI，无广告+深度推理

百度悄然推出“TizzyAI”，主打“零广告”与深度/自动双模式回答，10秒级生成答案并附度假地海拔、美食等细节；底部影视库聚合奈飞、B站等跳转链接但不直接播放，短剧区可倍速播放。相比AI抖音偏娱乐、夸克重工具，TizzyAI凭技术深度和干净界面切中“高效决策”需求，却受限于版权灰色地带、生态资源未打通及响应速度——能否从“可用”晋级“好用”，就看它能否在合规合作与功能补全上跑赢窗口期

https://36kr.com/p/3382818537208072

LG 发布 EXAONE 4.0：韩国首个混合推理 AI

LG AI Research 推出韩国首个混合推理 AI 模型 EXAONE 4.0，把通用语言处理与深度验证的推理能力合二为一，在数学（AIME 2025 85.3 分）、科学（GPQA-Diamond 75.4 分）、编程（LiveCodeBench v6 66.7 分）等高难基准上表现抢眼；提供 32B 专业版（通过 6 项国家级考试，面向法律、医疗等场景）与 1.2B 端侧版（体积减半、性能提升，可本地安全跑）。模型同时支持 MCP、函数调用与韩语、英语、西班牙语，即日起教育机构零审批免费使用；与 Friendly AI 合作推出免 GPU 商业 API，研究版已开源上 Hugging Face

https://www.ithome.com/0/868/248.htm

智源开源 RoboBrain 2.0+RoboOS 2.0

智源研究院一口气放出 32B/7B 两版具身大脑 RoboBrain 2.0 和全球首个 SaaS 形态跨本体协同框架 RoboOS 2.0，全部开源可商用。RoboBrain 2.0 在 BLINK、CV-Bench、Where2Place、Ego-Plan2 等 10 项具身智能基准上拿下新纪录：7B 模型以 83.95、85.75 分登顶 BLINK 与 CV-Bench，32B 在 RoboSpatial、RefSpatial-Bench 及 SAT、Where2Place 等再刷 SOTA；多机器人规划任务 7B 版 81.50 分、32B 版 80.33 分，显著领先 GPT-4o、Claude 等对手。模型针对真实场景把“空间理解、时间建模、长链推理”三大短板一次性补全，结合 RoboOS 2.0 的“云端大脑+本地小脑”无服务器架构，能把商超、厨房、居家等多场景里的异构机器人一键组队，30% 性能提升、3 ms 端到端延迟、27 倍通信提速；开发者仅需三行命令即可把全球技能商店里的现成小脑模块插到自家机器人上，实现真正的群体智能。代码、权重、镜像、技能商店全部公开，已在 Hugging Face 和 GitHub 上架
RoboBrain2.0模型架构图

https://mp.weixin.qq.com/s/GYvMrzf1KApwwUgLG9hNSw

华人团队Cognition收购Windsurf剩余团队

在谷歌以24亿美元挖走Windsurf CEO及核心团队仅72小时后，华人创办的Cognition闪电接盘剩余全部资产与员工，顺带收走账上逾1亿美元现金；交易将Windsurf的AI IDE、品牌、350多家企业客户与8200万美元年度经常性收入收入囊中，并承诺所有员工既得股权立即解锁、再享额外财务收益，未来产品将与Cognition的Devin智能体深度融合

https://mp.weixin.qq.com/s/gJo8toPvrcqd-Fic17-vOw

TRAE 一口气接入 Kimi-K2 与 Grok-4 Beta

TRAE 自定义模型服务商今天上线两大新模型：中国版与国际版同步支持通过 API Key 调用 Kimi-K2（MoE 架构，官方称代码、Agent、数学推理表现已逼近 GPT-4.1/Claude-4），国际版还额外新增 xAI 的 Grok-4 Beta，与原有 Claude-4-Sonnet、Gemini-2.5-Pro、GPT-4.1 等并排进入“超级模型专区”。用户只需在 Kimi 开放平台创建 API Key，再在 TRAE 三步完成绑定即可把 Kimi-K2 接入工作流；国际版 Pro 用户也可直接排队体验 Grok-4 Beta