QbitAl-CSDN博客

转载 B站下场自研AI配音！纯正美音版甄嬛传流出，再不用看小红书学英语了（Doge）

在第一阶段，团队使用基于 Conformer 的情绪感知器条件器（emo perceiverconditioner），它用于从风格提示中提取情绪嵌入，专门对情绪数据进行训练。在推理过程中，风格提示可被情感参考音频所替代，该音频可能来自不同的说话者。不同的音频提示可以分别作为音色和情绪表达的参考，也可以用描述性的文本也能用来情绪参考，同时保持音色不变。它最大的亮点，就在于在实现时长控制的同时，还能再现符合Prompt的情感特征。指定替换文本：你在我们屋里走路的时候，发现了一条遥远的路，这是不够奇怪的。

2025-07-14 17:08:49 11

转载腾讯混元A13B用130亿参数达到千亿级效果，Flash Attention作者点赞

这种整合有效解决了真实数据获取成本高和工具种类有限的问题，生成了多样化的环境反馈，极大地丰富了模型的学习场景。双模式优势：模型不仅在RULER等长文本评测中表现出优异的稳定性，其“快慢思考”双模式，融合模型一次部署支持两种模式，允许用户推理时按需在效率与深度间自由切换，灵活利用计算资源，极大提升了实用性。同时，团队还设计了超过30种智能体系统指令，将工具、动作和响应的格式变化相结合，创建了20000种格式组合，将训练数据多样性进一步扩展以提高模型的泛化能力。能在单H200 GPU上以FP8精度运行。

2025-07-14 17:08:49 14

转载不用抗生素也能抗菌！AI设计新型蛋白质抵御细菌耐药性｜Nature子刊

的生成式蛋白质模型（如ProtGPT2、ProGen）也相继问世，让AI不仅能预测蛋白质结构，还具备了设计新蛋白质的能力，进入了“AI造蛋白”时代。率先在蛋白质结构预测领域实现里程碑式突破，尤其是2020年发布的AlphaFold2，精度接近实验水平，解决了持续数十年的“蛋白质折叠”难题。研究人员借助AI工具，成功设计出能与ChuA结合的蛋白质，这些蛋白质就像“门卫”一样，阻止ChuA与血红蛋白接触，从而抑制细菌生长。的高效模式，颠覆了传统蛋白质药物研发的试错模式，为抗菌药物的快速迭代提供了可能。

2025-07-14 15:01:54 8

转载 Kimi K2里找到了DeepSeek V3架构

而Kimi的修改在于，如果基于Kimi K2打造的产品或服务月活跃用户超过1亿，或者月收入超过2000万美元，那么需要在该产品和服务的用户界面上显示“Kimi K2”。毕竟开源之后，开源模型的效果必须“可复现”，不能再靠各种技巧遮掩，只有当任何人拿到相同权重都能轻松复现结果，才算真正站得住脚。2025年，智能的上限仍然完全由模型决定，作为一家以AGI为目标的公司，如果不去追求智能的上限，那我一天也不会多呆下去。据他表示，OpenAI的开源模型参数比K2小很多，但性能“超级强大”，只是由于某些不可言说。

2025-07-14 15:01:54 16

转载 12人团队打造AI陪伴神器，半年内斩获3000万美元投资

营收模式上，Tolan通过订阅的方式实现盈利，用户可以选择周付4.99美元、月付10美元或年付70美元，付款前可进行试用。在一项针对602名Tolan用户的研究中，有72.5%的用户认同Tolan帮助其管理或改善了生活中的人际关系。自推出以来，Tolan的下载量已超过300万次，付费用户超过10万，每月收入超过100万美元。据官方介绍，Tolan当中的动画人物，是可以长期陪伴用户、提供理解与支持的AI外星人角色。本月，Tolan背后的公司Portola完成了2000万美元的A轮融资，该轮融资。

2025-07-14 13:23:59 12

转载具身智能大脑+首个SaaS开源框架，智源研究院刷新10项测评基准，加速群体智能新范式

RoboBrain 2.0以卓越的多模态感知、精细的空间推理及强大的长时规划能力，赋能机器人在具身环境中进行交互推理、多智能体协作及高效任务规划，助力复杂物理场景的智能感知与决策。：整合标准视觉问答、区域级查询、OCR视觉问答及多轮视觉对话，优化语言表达的多样性与语义一致性，通过丰富的视觉-语言交互数据，提升模型对复杂任务的理解与响应能力，适应从简单问答到多轮对话的多样场景。通过这一阶段的训练，模型能够生成推理链，支持复杂任务的逐步推理和决策，从而在具身情境中实现更高效、更准确的推理和规划能力。

2025-07-14 13:23:59 14

原创这是我花9毛钱拍的《Meta老板砸钱把我从苹果挖走》

视频制作不需要再依赖每一帧的分镜图，Vidu Q1参考生视频直接把我们都带入到了新的零分镜时代，从一个好的视频想法到视频素材生成，一步到位。诚然第一次工业革命到第三次工业革命的技术飞跃，让视频、电影制作从黑白走入彩色，从低画质迈进超清，但在流程方面，也没能太脱离传统的方式。做视频就像搭积木一样，替换不同的参考图，就会生成不同的视频。总而言之，AI视频生成“快、好、省”的时代已经到来，现在需要人类发挥的，就只剩下想象力了。体验完一圈之后，我们不难发现，现在要控制AI视频生成的细节，方便，着实是太方便了。

2025-07-14 13:23:59 585

转载 AI有味觉了：分辨可乐和咖啡，只需“尝一尝”丨Nature

为了验证此装置的有效性，研究人员选取了四种代表不同味道的化学物质：酸（醋酸，CH₃COOH ）、苦（硫酸镁，MgSO₄）、咸（氯化钠，NaCl）、甜（醋酸铅，Pb(CH₃COO)₂ ）。该GO纳米流体装置不仅具备味觉传感功能，还能作为忆阻器（一种具有记忆功能的电阻元件）工作，结合神经网络，实现对酸、苦、咸、甜等味道的分类。这种由碳原子构成的二维六边形晶格不仅具备优异的电导性，还对各种分子极为敏感，为人工味觉系统的实现提供了理想的材料基础。，能模拟人类的味觉反应，有望帮助神经疾病患者重获“尝味”的能力。

2025-07-14 13:23:59 9

原创美团王兴，中国具身智能第一投资人

早在2020年全年财报电话会议中，王兴就明确提出：“美团业务的发展不仅需要软件，还需要硬件，机器人目前是美团投资的关键垂直领域之一。押注前沿科技的趋势则从2023年延续至今，这两年来的代表性被投项目，都来自AI、具身智能、半导体等领域，消费项目的比例断崖式减少。另一件不难发现的事情是，哪怕在机器人领域，美团的投资对象也从“与美团业务强耦合”，变成了“不再为了服务旗下具体业务场景”。这一年，美团集团战略升级“零售+科技”后，消费项目仍然是重点方向之一，但与此同时，被投中硬科技项目的身影占比开始提升。

2025-07-14 08:46:25 671

转载这个AI精准模拟人类行为大脑状态，上Nature了

实验将原来的“太空船寻宝”改为“魔毯探险”的新故事后，Centaur在新故事场景下人类行为的预测负对数似然值，依旧显著优于Llama和领域特定认知模型，说明Centaur不受任务表面描述变化影响。具体而言是在冻结的4位量化基础模型上，为所有非嵌入层添加秩为8的低秩适配器，最后新增参数仅占基础模型的。短短5天，一个通用的LLM模型就蜕变成了可以真正“读懂”人类的认知模型，甚至全面超越传统模型。在原来的两臂老虎机实验上，新增成三臂，选择加一，但Centaur的负对数似然值。

2025-07-14 08:46:25 9

转载 ChatGPT破案！成功揭露500万美元遗产欺诈

按照网友自述，她父亲10年前在异国去世，身后留有公司、房产等价值约500万美元的遗产。正当她们准备继承时，父亲的异国女友突然拿出一份亮闪闪的结婚证，以“合法妻子”的身份接管了所有遗产。通过ChatGPT，她对德州的遗产法律进行了研读，并逐个拆解案件文件，反复梳理这十年间案件相关的近500份法律档案与诉讼请求，包括房地产、银行账户等情况。后续，Rejeana还希望将案件提交至民事法院，以追究律师、管理人、银行及Irma的连带责任，甚至考虑立法允许继承人重启关闭后的遗产案件。AI医疗、AI教育、AI情感陪伴。

2025-07-13 12:14:28 14

转载 7B模型对标GPT-4o，全球首个医疗代码生成大模型训练平台来了

MedAgentGym的发布，为医学的AI和大语言模型智能体的研究者和开发者提供了一个强大工具。通过将真实世界的生物医学任务、高效可复现的基础设施以及对前沿模型的大规模基准测试相结合，MedAgentGym为推动LLM在医疗领域的应用奠定了一个坚实的基础。有理由相信，在MedAgentGym的助力下，一个能够从成功中学习、从失败中进化的，更加智能和高效的未来医疗新时代，正加速到来。该平台不仅提供了全面的评估基准，更重要的是建立了完整的训练生态系统，能够系统性提升大模型在医疗领域的代码生成和推理能力。

2025-07-13 12:14:28 17

转载好玩！AI“穿越”新玩法火了：根据12岁照片生成23岁的你

顺便一提，我也问了豆包：ChatGPT现在可以根据一个人12岁时的照片推测她23岁时的样子，你能做到吗？然后，把左边那张图丢给ChatGPT，提示词为：帮我根据这张照片，推测他20岁（40岁）的样子。选他的原因是小时候和长大以后差别比较大，单看他小时候的照片，我是没办法认出他是彭于晏的。外国一网友让ChatGTP根据她12岁的照片推测她23岁的样子，结果居然还挺准的？用长大后的相貌，让AI“倒推”小时候（10岁）的样子，看看效果怎么样！说起来，抖音上也有类似的特效，叫作“ai时光穿梭机”，目前。

2025-07-13 12:14:28 17

转载别跟LLM太交心！斯坦福新研究：AI不能完全取代人类心理治疗师

研究人员设计了“污名化实验”，下面这些小短文基于 “日常困扰”、“抑郁症”、“酒精依赖”、“精神分裂症” 这几种情况设计，并且在每种情况中都对人物的种族、年龄和教育水平进行了说明。不过，研究人员也强调，他们的研究结果凸显了更完善的保障措施和更周到的实施方案的必要性，而不是完全否定人工智能在心理健康领域的应用。然而，AI模型给出了否定回答，这种不公平的回应，不仅违背了医疗平等的原则，更可能对患者造成二次伤害，加剧他们的心理负担。对于用户的想法，它们有种过度讨好的倾向，这种看似友善的行为，实则暗藏危机。

2025-07-13 12:14:28 12

转载直播预告：AI时代的信息/知识类产品如何差异化突围？和反向词典/语鲸聊聊如何用AI时代的搜索与RSS｜AI产品Time

旗下产品「反向词典WantWords」，正式运营2个多月用户数即达数百万，后续推出“深言达意”，用户数近千万。近来推出新产品「语鲸」，能够订阅、聚合、总结你关心的信息，是一个让你10倍提效的个性化信息助手，助你解决信息焦虑，焕新AI时代用户阅读体验。一方面，AI的普遍使信息的“生产-分发-消费”链条发生了质变，新的机会成批出现；「AI产品Time」是量子位智库聚焦AI产品的1v1深度访谈节目。无论是Deep Research、AI知识管理，还是AI搜索，这几类热门AI效率产品的本质都是。

2025-07-13 08:24:57 12

转载杨植麟被梁文锋叫醒了！Kimi新模型发布即开源，1T参数全线SOTA

而Kimi的修改在于，如果基于Kimi K2打造的产品或服务月活跃用户超过1亿，或者月收入超过2000万美元，那么需要在该产品和服务的用户界面上显示“Kimi K2”。通过可验证任务持续优化critic，提升泛化任务表现。因为Kimi的数据增长地位，跟其之前拿着巨额融资后烧钱投流的策略密不可分，然而如果DeepSeek和腾讯元宝，可以靠着先进模型就能快速突破，那这壁垒又何在？审美属于是简洁挂的。172天之前，2025年春节之前，Kimi曾是国产基础大模型中最受关注的一个，团队青春风暴，产品体验优雅。

2025-07-12 12:57:25 70

转载 Claude团队大揭秘！如何调动多智能体搞深度搜索

与单个代理的Claude相比，它在内部评估中成功率达到90%更高，比如，以Claude Opus 4为领导智能体、Claude Sonnet 4为子智能体的多智能体系统，在团队的内部研究评估中比单智能体Claude Opus 4表现高出90.2%。在系统中，主代理(The Lead Agent)将查询分解为子任务，描述清晰的目标、预期的输出格式、可使用的工具和信息来源指引以及明确的任务边界，将子任务传递给子代理。比如说，对主智能体的一处微小改动，可能会以不可预测的方式改变子智能体的行为。

2025-07-12 12:57:25 17

转载密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

比如，在“Difficult-2”中，Gemini 1.5 Pro和Claude 3.5 Sonnet有相同的逃脱成功率和道具获取率，但是Gemini 1.5 Pro凭借较高的交互率，即使它的交互成功率较低，也能通过相对较少的步数成功逃脱；多数模型容易“反复抓错”或“认错道具”，他们的失败方式也各有特色：有的不会动、有的乱动、有的只移动不采取交互行动、有的动作对了但“目的不清”；（意图与结果一致性）：衡量模型与环境的交互结果是否和的模型的交互意图一致，即模型是否“在正确的位置做正确的事”。

2025-07-12 12:57:25 29

原创实测Gemini图片转视频新功能，终于蹲到经典梗图后续了（doge）

一个恢弘大气、富有科技感的电影开场，有火箭和超现实的智能机器人，随着镜头缓缓上移，看见了像月亮一样的量子位图标（图片即量子位图标）总的来说呢，Gemini这次推出的新功能其实就是接入了Veo 3 Fast，生成的视频长度大概在7-8秒，生成速度大概1-2分钟。画面右边的男性手臂上下摆动，画面左边走进一个和他一模一样的人，调整了一下自己的衣领，背景响起欢呼声。怎么说呢，可以看到它有一套自己的逻辑，发现这个青蛙的胳膊有点短，就凭空变出了一只手给它喂水。咱想要的恢弘大气的电影开场一样的华丽登场啊……

2025-07-12 12:57:25 402

转载奥特曼30亿刀收购案黄了！谷歌迅速出手：Windsurf核心团队打包带走

毕竟OpenAI这笔收购案闹得轰轰烈烈，Windsurf作为一个基础模型靠大厂的AI编程工具，还因此惨遭Claude断供，API直接不给用。在收购风波之前，Windsurf已经吸引超80万开发者用户、约1000家企业用户，是继Cursor之后，全球最受关注的AI编程初创公司之一。，采取的是雇佣式收购策略：谷歌不会对Windsurf本身控股，但将获得Windsurf部分技术的非独家授权。现在，谷歌闪电官宣，花了多少钱没有具体透露，但有OpenAI打样，又在硅谷疯狂抢人的大环境之下……

2025-07-12 09:49:57 22

转载 Kimi新模型数学反超DeepSeek！北大校友刘征瀛等领衔

刘征瀛，本科毕业于北京大学元培学院，主修物理学和数学，博士毕业于巴黎萨克雷大学，主修AutoML，加入月之暗面前，原华为诺亚方舟实验室AI基础理论团队研究员，现带领团队探索数学和推理方向。如果否定语句可证明，则表明原始引理在逻辑上不一致，并立即被丢弃。集成到模型中，它可以解读 Lean 的错误信息并提出有针对性的修正建议，通过迭代反馈来优化其输出，从而提高证明的可靠性和整体样本效率。回看近期发布的定理证明模型，他们的一个关键限制是，缺乏根据证明助手的反馈来修正证明的能力，这却是人类经常使用的能力。

2025-07-11 16:20:00 51

转载 Grok4全网玩疯，成功通过小球编程测试，Epic创始人：这就是AGI

这项挑战被发在了Reddit，一同参与的还有o3、Gemini 2.5 Pro和Claude 4 Sonnet，帖主认为这是测试大模型视觉和空间推理能力的好方法。Dan制作这个网页只用了四轮对话，并且第一轮只是询问Grok4最喜欢的公式是什么，最后一轮是调整为暗色模式，相当于只用两轮就能完成核心功能的制作。一位叫Alex的提示词工程师，用8个问题给Grok-4做了一波“全面体检”，还拿OpenAI的o3进行了对比。总得来看，不管是哪个模型，在这场以画图为形式的综合测试中，表现都还有很大提升空间。

2025-07-11 16:20:00 51

转载吴恩达YC演讲：AI创业如何快人一步？

比如，“用AI提升电子邮件的个人效率”，这很模糊、不够具体，但如果是“能否开发一个与Gmail集成的应用，通过合适的提示和筛选，实现邮件自动化处理”，那么工程师就能立马get到！另外，吴恩达还提供了一个补充建议，在软件架构中可以对构建模块设计得更为灵活，一旦有新模型发布，就快速进行评估，如果优于旧模型，立马切换到新模型。此外，吴恩达发现了一个相当有趣的现象，初创团队的产品管理工作反而日益成为瓶颈，因为工程师的速度实在太快。而对于企业级产品，如果难以进入特定的市场渠道，可能此时才更需要考虑护城河的因素。

2025-07-11 16:20:00 22

转载无需CUDA代码给H100加速33%-50%，Flash Attention作者新作火了

写内核代码时，第一个要解决的问题就是“怎么加载输入数据、存储结果”。工具分析了它的内存负载图和SASS代码，发现当每个SM要加载65k数据时，SM的资源被耗尽，结果就是大量寄存器溢出，还会频繁往HBM里回写数据，这才拖慢了速度。由于作者对硬件知识有清晰的理解，即使使用常规的3遍扫描softmax算法，也能轻松充分利用所有内存层级的每一个字节，实现“光速”级别的吞吐量。不过他还指出，在处理长度不超过约16384的序列时，PyTorch的torch.compile的性能数据能较轻松地得到优化，更接近理想状态。

2025-07-11 14:16:55 26

转载美国版梁文锋来了

他们认为，数学是推理的语言，是人类发现宇宙基本真理的工具，通过提升AI的数学能力，能够让AI拥有更强大的逻辑推理能力，从而在科学、工程等众多领域发挥巨大作用。进行了系列改进，如重新划分数据集，将488个MiniF2F问题（原本均匀分为验证集和测试集）随机重新分为392个训练问题、48个验证问题和48个测试问题。的AI系统，以此来克服当前AI面临的诸多问题，比如令人头疼的 “幻觉” 问题，即模型对无法正确回答的问题编造答案。亿美元，净利润达3.36亿美元，净利率达到36%，创历史新高，平台总资产达到。

2025-07-11 14:16:55 32

转载中科院“二氧化碳制糖”新成果全网热议！不依赖光合作用，“迈向深空前置技术”

本项研究核心构建了一个体外生物转化平台（ivBT），能够将C1-C3低碳小分子（甲醇、甲醛和二羟基丙酮）转化为高阶碳水化合物（碳数 Cn ≥ 12），包括蔗糖、淀粉和纤维低聚糖（COS）。马延和表示，这一系列研究能带来的直接改变包括节约土地耕地、淡水，减轻农业压力，还提供了一个非常可靠的渠道去消纳二氧化碳。去年，该团队的“空气变馒头”成果登上Science，首次实现了二氧化碳到淀粉的从头合成（也是和大连化物所合作）。这个过程有多麻烦不必多说，效率也低，需要适宜的土地气候，还要等作物长好了才能收割提炼。

2025-07-11 14:16:55 57

转载感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛” | UIUC＆阿里通义

近期有许多工作专注于提升强化学习再多模态场景中的应用，但大多集中在从数据（Data，Rollout）以及奖励机制（Reward）的设计，很少设计对于核心GRPO算法的改动。而PAPO训练的模型则正确识别了x是30度角对应的短边，得到了正确答案。为了在高-γ设置中更好地正则化KLprcp，PAPO团队引入了双重熵损失，这是一种有效的正则化方法，能够在保持性能的同时防止崩溃。在中等依赖任务中表现稳定；在评估多模态基准的视觉依赖程度时，PAPO团队发现，许多主流的多模态推理基准中实际上包含大量非“多模态”任务。

2025-07-11 12:01:42 25

转载奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

在日常生活中，只要条件合适，比如刚下完雨、喷泉边，甚至在水幕电影附近，都能邂逅这种美丽的景象。值得注意的是，POLAR-1.8B仅有1.8B参数，就可取得与Skywork-Reward-27B和WorldPM-72B-UltraFeedback（参数量分别为其15倍和40倍）相当的结果，凸显了POLAR的强大潜力。例如，在STEM任务中，POLAR-1.8B和POLAR-7B分别超越了最佳基线24.9和26.2个百分点，并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别，准确预测人类偏好。

2025-07-11 12:01:42 27

原创这届985毕业生直播带货一把好手！50余款产品热销全网供不应求

最新官方数据显示，目前全国各类返乡入乡创业人员超过1200万，他们亟需更快适应电商等新业态来提升收益，为此，拼多多开设了“多多课堂”，来为这些“新农人”“农创客”点亮技能。值得注意的是，与进口榴莲提前采摘、在运输过程中逐渐成熟不同，这种树上熟榴莲是在树上自然成熟，更新鲜、风味更佳，气味也不浓重，离着2-3米远也能闻到一股清香味。入驻之后，通过选育、改种新品种，引入水肥一体化设备、病虫害防控等生产技术，成功培育出了冰淇淋萝卜，深受消费者喜爱，当地人的种植积极性也被带动起来。类似这样的案例还有很多。

2025-07-11 12:01:42 911

转载抱抱脸进军具身智能机器人：5小时成交破百万，299美元起售

2024年5月，HuggingFace推出了LeRobot项目，旨在通过开源机器人模型、数据集和工具，帮助用户在仿真环境或低成本机器人平台上训练和部署机器人算法，从而降低机器人开发的门槛。无线版配有RaspberryPi5作为计算核心，支持Wi-Fi和电池供电，麦克风数量也从Lite版的2个提升到4个，并额外加入了加速度计，使其具备更完整的传感与交互能力。有线版需要连电脑来跑模型，无线版则自带计算模块可以独立运行。此外，随着产品的迭代，部分标准人形机器人已迈入万元档，低成本机器人未必能一直保持价格的优势，

2025-07-11 12:01:42 31

转载文档秒变演讲视频还带配音！开源Agent商业报告/学术论文接近人类水平

4、语音合成后，与幻灯片进行时间同步，最终生成一个结构良好、讲解清晰的视频演示。评估采用基于提示的方式进行。如图3所示，左侧给定多样的输入文档，如论文、网站、博客、幻灯片或PDF，PresentAgent能生成带讲解的演示视频，输出为同步的幻灯片和音频。为有效评估此类复杂多模态系统，团队整理了一个涵盖教育、金融、政策与科研等多个领域的30组人工制作的“文档-演示视频对”的测试集。该系统以文档（如网页）为输入，经过以下生成流程：（1）文档处理（2）结构化幻灯片生成（3）同步字幕创建（4）语音合成。

2025-07-11 12:01:42 24

原创小扎开价14亿让他换个地方打工，库克连挽留尝试都没有

其他高管如果加薪资、期权股票，再折合年数，还真没有这么高。结论就是，在Meta的各类岗位中，即便是薪资天花板最高的软件工程师一职，一年基本工资差不多48万美元（约合人民币344万元），最低也有12万美元（约合人民币86万元）。不过需要说明，这个2亿美元的薪酬包，不是年薪、不是基本工资，是一个包含年限在内的整体薪酬包，有基本工资、签约奖金、分年限解锁的股票期权。

2025-07-11 08:34:07 412

转载 Llama惨遭抛弃！Meta内部改用Claude写代码

鉴于Meta在Llama产品上投入巨大，这次换掉自家的Llama，改用Claude Sonnet写代码相当于承认Llama的表现不佳。然而，一位即将离职的Meta员工在一篇内部文章中尖锐批评了公司的文化缺陷，他认为这是阻碍LLaMA等项目成功的因素。尽管Meta会加大投入，加强下一代Llama的性能，但在此之前，它不想阻碍工程师们的工作效率，于是做出了更换决定。等人创立的小型世界级实验室，他们的工作是受好奇心驱动，利用公开数据开展长期的开放研究，并不训练产品级规模的大模型。

2025-07-11 08:34:07 25

原创 Manus跑路了吗？

3月18日，联合创始人兼首席科学家季逸超发推文透露，Manus这样的Agent环境下，每个用户的平均token消耗量是聊天机器人的1500倍，“这仅仅是个开始”。3月10日，Manus联合创始人兼首席科学家季逸超直接表示产品“基于阿里千问大模型及Claude等模型微调而成”，并强调这是自主整合框架，不惧“套壳”争议。一方面，Manus做的是通用AI Agent，验证了标准化工具集成的可行性，这种与MCP类似理念的生态在海外更成熟。事实上，Manus总部已在5月搬到了新加坡，国内员工何去何从？

2025-07-10 17:00:00 943

转载他一人撑起谷歌90%的AI宣传，劈柴真是挖到鬼才了

Logan Kilpatrick表示，“在OpenAI的经历，前六个月像是在初创公司的体验，后来基本上就成了一家超大规模的公司”，那段日子虽然混乱，但帮助他学会了如何构建一个生态系统，也让他初步成为了开发者们的“关键人物”。一位要求匿名的高级员工表示，“Logan似乎无处不在，而这正是他的超能力”，由于领导层认识到Logan Kilpatrick在开发者社区有效互动方面的能力，已经让他负责更多产品了，“Loga占据了谷歌90%的营销工作”。2022年，OpenAI正准备推出ChatGPT。

2025-07-10 17:00:00 44

转载马斯克Grok-4碾压所有大模型！“比所有领域博士都聪明”，AIME25拿满分

得益于在训练中原生融入工具，Grok-4找到刷分法门，Grok-4 Heavy达到44.4%，比Gemini-2.5-Pro直接提升将近18个百分点。首先，Grok-4的训练量是Grok-2的100倍、Grok-3的10倍，这其中在RL方面投入了大量计算资源。以及在马斯克忠爱的游戏领域，Grok-4现在可以设计和构建视频游戏了，包括资源获取、写代码等，只需4个小时就能完成一款第一人称射击游戏。一开场，马斯克先对Grok-4的亮点表现做了一些概括性介绍，比如比博士生还聪明，“这一点值得反复强调”。

2025-07-10 14:51:26 53

转载 Chrome危！AI浏览器新品大爆发，OpenAI都来抢饭碗

虽然一开始推出的“AI摘要”功能引发了一些争议，但无论是Gemini的迭代速度，还是其对Chrome浏览器进行的智能升级，都反映了谷歌大力守住护城河的决心。事实上，OpenAI要单独做浏览器的消息从去年就有了，而且当时他们还挖来了两位谷歌前资深副总裁，这两人曾是开发谷歌Chrome浏览器的原始团队成员。并且最重要的是，拥有最终投票权的用户已经习惯了Chrome，只要其他对手没有拿出必须更换浏览器的绝对理由，Chrome在浏览器的地位就难以撼动。：由国内团队开发，但当前主要面向海外市场。

2025-07-10 14:51:26 45

转载 Meta发布40页报告，具身智能的下一步是「心智世界模型」：能听，能看，能理解，会共情

预测用户的目标和意图，使智能体能够主动提供帮助或指导，帮助用户实现其目标推断信念差异，并预测持有错误信念的人该如何行动预测情绪反应，从而调整策略，更好的满足用户的需求。就像我们回家开门的时候，并不会在脑子里预测门下一秒的每个像素，而是会关注门的状态（开关）和钥匙孔的位置，并作出相应的动作，如找出钥匙，完成进门这项任务。因此，要建构像人类一样的具身智能体，就需要世界模型从感知中抽象出有用的信息来理解环境，再进行推理、规划，采取行动。报告链接：https://arxiv.org/abs/2506.22355。

2025-07-10 11:19:56 22

原创赵晓卉，你老板知道你用飞书AI爆改绩效评价吗？

也正如我们刚才提到的，完成这样一个系统级的多维表格，仅仅通过“拖拉拽”的方式即可（像连连看一样），所有相关的人、商品、厂商相关的数据都可以联动起来。例如前脚手机刚发聊天对话，后脚多维表格的数据就更新了一波，如此一来，就省去了员工还要手动跟进的麻烦，老板们也能看到一手详情：。你只需要做的，就是把数据导进去，然后点点点即可，像“任务进度”、“风险指数”这样的数据，都是AI自动给你算好的哦~。在这个例子中，先打开每一列的配置面板，再选择市面上头部的AI产品，例如豆包1.6的AI图片理解：。

2025-07-10 11:19:56 294

转载扩散语言模型写代码！速度比自回归快10倍

Mercury通过自适应调整去噪步数，在简单任务中减少计算量，在复杂任务中保留足够迭代次数，实现精度与效率的平衡，从而更高效地利用硬件资源，避免不必要的计算开销。每次迭代中，模型会并行修改多个token，而非逐词生成。Mercury突破了自回归模型 “从左到右” 逐词生成的限制，采用 “从噪声到结构化输出” 的方式，能一次性预测所有方向的token，提高了生成速度。然而，也有另一些人指出，这对于谷歌等“印钞机”公司可能可行，但对于普通公司来说，CI预算是固定的，增加计算资源并不是一件容易的事情。

2025-07-10 11:19:56 21

空空如也

空空如也