
基础模型
文章平均质量分 83
李孟聊人工智能
独立开发,Substack和Medium顶级编辑
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Grok 4 系统提示词泄露
摘要:Grok 4在基准测试中全面超越现有模型,展现多领域优势 xAI发布的Grok 4在基准测试中表现卓越,所有任务均超越顶尖推理模型。其系统提示词显示核心能力包括:实时处理X平台内容(用户资料、帖子、文件分析)、图像编辑与生成确认,以及数学问题的结构化推理。Grok 4仅限付费订阅使用,强调中立立场和透明度,尤其在争议话题中会综合多方信源。相比其他AI,其特色在于实时更新、社交媒体深度适配及政治中立性,与马斯克将X打造成"万能应用"的战略高度契合。原创 2025-07-11 11:16:48 · 335 阅读 · 0 评论 -
Gemini 2.5 Flash-Lite 新版解析:与 Pro 和 Flash 版本的性能对比
Google推出的Gemini 2.5系列AI模型(Pro、Flash、Flash-Lite)针对不同场景优化,各有侧重。旗舰款Gemini 2.5 Pro擅长复杂推理,支持百万级token上下文,适合编程、研究等高精度任务,但成本最高;Gemini 2.5 Flash平衡速度与性能,延迟低至0.29秒,性价比突出,适用于实时应用;新发布的Gemini 2.5 Flash-Lite主打成本效益,吞吐量高,适合预算敏感型项目。三款模型均支持多模态输入,开发者需根据任务复杂度、预算和延迟需求选择,并可通原创 2025-06-18 22:08:44 · 1114 阅读 · 0 评论 -
Anthropic回击苹果的研究论文
苹果与Anthropic就大模型推理能力展开学术论战。苹果研究指出,大型推理模型(LRM)在处理汉诺塔等复杂任务时会出现"准确度崩溃",即使提供算法指导也无法避免,质疑其真实推理能力。Anthropic则反驳称实验设计存在缺陷:1)将token限制导致的输出截断误判为推理失败;2)评估标准过于严苛,要求长输出完全无误;3)未区分可解与不可解谜题。双方研究揭示了评估AI系统时需注意的基准污染、任务复杂度衡量等关键问题。这场辩论凸显了学术界对当前AI系统认知能力的持续探索。原创 2025-06-18 00:30:41 · 864 阅读 · 0 评论 -
Mistral的新推理AI:Magistral为市场带来了什么
Mistral AI推出新型推理模型Magistral:开源版Small(240亿参数)和企业版Medium,强调"思维过程可视化"和多语言支持。该模型在AIME2024测试中表现优异(Medium达90%准确率),响应速度比同类快10倍。Mistral同时提供Le Chat聊天工具及云平台接入,兼顾开源生态与商业需求。作者指出,虽然AI并非真正"推理",但逐步解题的透明性对专业领域颇具价值。目前Small模型已在Hugging Face开放下载。原创 2025-06-13 10:40:07 · 570 阅读 · 0 评论 -
OpenAI推出o3-Pro模型
OpenAI宣布了两个重大更新。首先,o3模型的价格降低了80%。其次,他们发布了一个名为o3-pro的新模型。o3-pro目前是OpenAI最先进的多模态模型,具有深度推理能力。它逐步解决问题,使其能够在编程、数学、科学、视觉感知等众多领域中更可靠地执行任务。原创 2025-06-11 23:59:07 · 1402 阅读 · 0 评论 -
Reddit刚刚起诉Anthropic索赔30亿美元——这件事为何改变一切
AI数据战争变得私人化了,我常用的论坛开始反击原创 2025-06-08 17:38:44 · 819 阅读 · 0 评论 -
99% 的 Claude 4 用户不知道这个功能的存在
摘要:Anthropic为AI助手Claude设计了分层思考模式,其中最高级的"Ultrathink(超级思考)"功能可分配最大计算资源。当Claude陷入重复循环、复杂问题或多步推理困境时,使用该指令可使其同时评估多种方案,连接不相关信息,更系统地解决问题。该功能不仅适用于编码,还可用于分析、战略规划等场景。官方文档证实这是通过"think"触发词实现的扩展思考模式,建议在复杂调试、架构决策等需要深度思考的场景中主动使用这一隐藏功能。(149字)原创 2025-06-06 22:02:39 · 477 阅读 · 0 评论 -
DeepSeek R1-0528 新开源推理模型(免费且快速)
DeepSeek低调推出全新开源模型R1-0528,总参数量达6710亿但推理时仅激活370亿参数,采用稀疏专家混合架构并支持164K tokens上下文窗口。该模型在MMLU基准测试中表现接近OpenAI o3/o4 mini,代码生成能力仅次于OpenAI,超越Grok 3 Mini等竞品。用户可通过OpenRouter免费API、DeepSeek收费API(1.95美元/百万输入token)或本地部署(量化后131GB)使用。MIT许可证下的完全开源特性为开发者提供了罕见的研究透明度,标志着开源AI已原创 2025-05-29 19:52:03 · 1998 阅读 · 0 评论 -
Claude 4 在 SWE-Bench 上得分 72.7%:对编程的意义
Claude 4 在 SWE-bench 基准测试中取得了 72.7% 的得分,这意味着它在解决真实编程问题上的能力显著提升。SWE-bench 是一个类似于 SAT 考试的测试,包含来自 GitHub 的实际编程错误,要求 AI 模型修复这些复杂问题。Claude 4 的得分比之前的最高分 62.3% 提高了 10 个百分点,表明它在 100 个错误中能正确修复 73 个,而无需人类干预。这一进步意味着开发者可以更快地解决日常编程问题,项目进展将更顺利,功能交付更迅速。对于编程学习者,Claude 4 是原创 2025-05-23 21:00:11 · 961 阅读 · 0 评论 -
OpenAI 坚持非盈利公司结构
OpenAI近期宣布将其营利性部门OpenAI LLC转变为公共福利公司(PBC),同时保留非营利性母公司OpenAI Inc.的控制权。这一决策旨在平衡盈利能力与社会责任,推动AI技术为更广泛的公共利益服务,而不仅仅是为大型科技公司创造利润。CEO Sam Altman强调,这一转变将赋予用户更多自主权,开源更多AI模型,并让用户决定AI的运行模式,体现“民主化AI”的理念。然而,随着AI开发加速,确保安全性和可靠性成为关键挑战。OpenAI还计划组建新的咨询委员会,确保AI技术在教育、医疗、科学和公共服原创 2025-05-10 21:23:31 · 895 阅读 · 0 评论 -
Qwen2_5-Omni-3B:支持视频、音频、图像和文本的全能AI,可在本地运行
Qwen2.5-Omni-3B代表了多模态AI普及化的重要一步。它将视频、音频、图像和文本处理打包到一个紧凑的3B参数模型中,平衡了功能和实用性。对于开发者、研究人员和组织来说,这是一个不需要大量计算资源就能实现多模态AI的解决方案。在Hugging Face上的可用性进一步降低了使用门槛。随着多模态AI的发展,像Qwen2.5-Omni-3B这样紧凑而功能强大的模型将在日常应用中发挥关键作用。无论是构建内容审核系统、教育平台还是辅助工具,这个模型都提供了一个有力的基础。原创 2025-05-05 22:49:57 · 1637 阅读 · 0 评论 -
揭秘微软与OpenAI的147亿美元决裂内幕
但微软对OpenAI要求更多算力的态度渐趋消极,尤其是在投入800亿美元建设自有AI基础设施的背景下。去年夏天,OpenAI推迟共享一个强大推理模型的代码,阻碍了微软将其整合到Copilot的计划。这一趋势体现在OpenAI的GPT商店与微软Copilot的竞争,以及微软探索替代模型上。对OpenAI而言,失去微软的算力资源可能延缓其AGI目标,特别是在面临2025年预计50亿美元亏损的情况下。OpenAI与甲骨文和CoreWeave的合作,以及微软对Phi-4的投资,表明双方都在为独立未来做准备。原创 2025-05-03 20:55:53 · 1393 阅读 · 0 评论 -
开源AI视频FramePack发布:6GB显卡本地运行
我们现在处于这样一个时代:您 — 在家中,使用中端GPU — 可以制作AI电影。无需订阅。无标记。无限制。FramePack是一个开放的创意沙盒。无论您喜欢动漫、模因、短片、讲故事还是实验,它都能让您完全掌控。而且是免费的。如果您关心AI内容创作开源工具或本地生成AI视频, 可以尝试下。原创 2025-04-26 23:00:09 · 1518 阅读 · 0 评论 -
Dia-1.6B TTS: 最佳文本对话生成AI模型
现在我们有了一个新模型Dia-1.6B,它在会话式AI方面似乎比ElevenLabs和Sesame CSM 1B模型表现更好。,意味着用户可以通过提供参考音频片段来引导模型输出,影响说话者的情感表达和语调。虽然Sesame和ElevenLabs在TTS质量方面设定了高标准,但DIA的。方面表现更好,特别是在对话密集的场景中。与传统的产生僵硬或单调语音的TTS系统不同,DIA擅长捕捉。等模型所缺乏的能力,后者需要手动替换(例如"哈哈")。另外,如果你不想在本地运行,可以在这里尝试。,如笑声、咳嗽和清嗓子。原创 2025-04-24 20:48:26 · 618 阅读 · 0 评论 -
OpenAI 宣布有意收购 Google Chrome
虽然 Chrome 已向超过 40 亿用户免费提供,占全球浏览器市场的 67%,但这种免费分发是由谷歌的广告收入资助的,而法官声称由于公司的垄断地位,这些广告收入过高。当被问及此事时,OpenAI 的 Turley 指出,虽然该公司目前使用微软 Bing 的搜索数据,但它希望获得更多搜索数据,包括来自谷歌的数据。虽然谷歌和 OpenAI 目前不是合作伙伴,但 Turley 表示,强制共享谷歌的搜索数据可能有助于恢复市场中的健康竞争。谷歌还拥有领先的网络浏览器 Chrome,谷歌搜索在其中作为默认搜索引擎。原创 2025-04-23 22:06:33 · 302 阅读 · 0 评论 -
读完谷歌69页提示工程白皮书后的5个核心要点
谷歌这份白皮书不仅是学术探讨,更是一份行动倡议。提示词工程代表着未来,掌握它的人将成为时代的赢家。是时候停止将AI视为黑箱,而应将其视为我们最强大的合作伙伴了。原创 2025-04-17 22:01:05 · 1193 阅读 · 1 评论 -
OpenAI发布GPT-4.1系列模型——开发者可免费使用
OpenAI刚刚推出GPT-4.1模型家族,包含GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano三款模型。重点是——现在全部免费开放!虽然技术升级值得关注,但真正具有变革意义的是开发者能通过Cursor、Windsurf和GitHub Copilot等平台立即免费调用这些模型。开发者朋友们,现在就去体验吧!原创 2025-04-15 22:28:50 · 956 阅读 · 0 评论 -
GPT-5、o3和o4-mini即将到来
*推理模型世代(o1/o3/o4)的更新周期不再是基础模型(GPT-2/3/4/5)的18-24个月,而是3-4个月——提速达6倍。即将推出的o4-mini在性能上可能与o3相近,但将突破这些限制,让全球用户——甚至免费用户(尽管会有速率限制)——都能用上世界顶级AI研究助手。若GPT-5真如所言"远超我们最初设想"——我个人对此深信不疑——这将直接击穿质疑者的论调,无论是"算力缩放瓶颈无法通过测试阶段计算解决",还是"OpenAI迟迟不推GPT-5必因未达预期"之类的说辞。首先,基准测试结果不佳。原创 2025-04-08 21:45:55 · 1056 阅读 · 0 评论 -
Llama 4架构解析与本地部署指南:MoE模型在170亿参数下的效率突破
Meta推出的16专家与128专家配置的Llama 4模型,标志着开源大语言模型发展迈出重要一步。通过采用混合专家(MoE)架构,Meta在持续突破模型性能边界的同时,有效应对了AI模型规模扩展带来的计算挑战。Scout与Maverick采用不同专家数量的设计,表明Meta正在积极探索模型容量、推理效率与任务性能之间的最优平衡点。随着这些模型向研究社区和开发者开放,我们有望获得关于如何最佳利用MoE架构的丰富新见解。原创 2025-04-06 21:24:53 · 1644 阅读 · 0 评论 -
Gemini 2.5 Pro与Claude 3.7 Sonnet编程性能对比
尽管发布已有时日,Gemini 2.5 Pro 凭借其升级的推理分析能力持续引发热潮。该功能原本仅限Gemini Advanced订阅用户专享,如今已向大众免费开放。虽为新秀,Gemini 2.5 Pro 已在部分测试中超越ChatGPT 4等对手(但编程和多轮对话领域除外)。令人意外的是,在"人类终极考试"测试中,其未启用网络搜索功能的版本竟超越了OpenAI的深度研究模型,创下惊人成绩。原创 2025-04-03 20:43:27 · 2459 阅读 · 1 评论 -
DeepSeek V3–0324 vs DeepSeek-V3, 排名最高非推理模型
代表了人工智能领域的革命性飞跃,在性能、开放性和多功能性上树立了新标杆。凭借6850 亿参数和MIT 开源协议,它不仅让前沿 AI 技术更易获取,还在编程、推理和多语言任务中展现了卓越能力。相较于Claude 3.7和等竞品,其更高的性价比使其成为开发者和企业的理想选择。通过满足市场对高效性、可扩展性和开源创新的需求,这一模型不仅巩固了其 AI 领域的领先地位,更为未来的技术突破铺平道路。不仅是一个里程碑——更是重新定义 AI 潜能的催化剂。原创 2025-03-25 20:31:45 · 904 阅读 · 0 评论 -
我测试了AI搜索:试图替代谷歌搜索
使用Claude 3会得到回应,仿佛它是在回答当前信息,但仔细检查后发现它完全过时,只提供了一个一般性的答案。这是唯一一个警告我结果的:“需要注意的是,情况在不断变化,信息可能会迅速变化。谷歌的算法经过训练,能够评估数百万网页的相关性,这也是人工智能系统必须达到的标准。人工智能的答案通常是在没有明确归属的情况下生成的,这使得验证可靠性变得更加困难。它们缺乏谷歌搜索提供的持续更新,这意味着它们可能无法反映最新的新闻或变化的信息。谷歌搜索显示了广泛的网站和视角,而人工智能模型通常提供一个单一的、连贯的答案。原创 2025-03-14 20:55:30 · 684 阅读 · 0 评论 -
在Cloud Run上部署Google的Gemma 3 (4B):实用指南
探索如何在Google Cloud Run上部署Gemma 3 (4B)模型,创建生产级API并集成到应用程序中。简化部署流程,优化性能,助力AI应用开发。原创 2025-03-12 20:38:20 · 1637 阅读 · 0 评论