
AI学习系列
文章平均质量分 86
枫夜求索阁
「枫夜·求索阁」——技术人的思维藏经阁。十年开发沉淀架构设计/源码解析/效能工具,同步技术博客(https://www.fengyege.top/)。既写硬核代码,也谈工程师人文修行,守拙求真,与大家共探技术美学与人生代码。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用AI写代码省时省力?小心给黑客开了后门!你的智能助手真的可靠吗?
文章探讨了AI编程带来的安全风险,包括Agent Memory功能漏洞、上下文添加机制的供应链污染、Guidelines功能的定向误导以及MCP协议的指令劫持与权限滥用等攻击路径。同时提出了多层安全架构与数据保护、AI模型与行为监控体系、上下文安全与执行隔离、漏洞管理与应急响应以及安全意识与协作生态等系统性防御策略。呼吁企业将AI安全纳入DevSecOps流程,构建覆盖数据、模型、协议、生态的全生命周期安全体系。原创 2025-05-17 12:31:49 · 564 阅读 · 0 评论 -
腾讯优化DeepSeek的DeepEP通信框架:开启AI大模型训练新时代
腾讯星脉网络团队优化了DeepSeek的DeepEP通信框架,显著提升了AI大模型训练的效率。DeepEP是全球首个专为混合专家模型设计的开源通信库,解决了MoE架构对NCCL的依赖问题。腾讯通过智能化带宽分配、绕过CPU控制面及原子化信令协同等关键技术,使DeepEP在RoCE网络环境性能提升100%,IB网络环境提升30%。这一合作推动了技术创新,为企业提供了高效解决方案,并加速了AI应用的普及。原创 2025-05-13 19:18:34 · 877 阅读 · 0 评论 -
大模型文件类型揭秘:从基础到面试挑战
本文深入探讨了大模型的文件类型,分为模型文件和数据文件两大类。模型文件包括权重文件(如.pt/.pth、.ckpt、.safetensors、.bin)、配置文件(如config.、generation_config.)、词汇表文件(如tokenizer.)以及其他格式(如SavedModel、ONNX、HDF5、量化格式和GGUF)。数据文件涵盖文本文件(.txt、.csv、.)、文档文件(.doc、.pdf)、图像文件和音频文件。文章还提供了相关面试题及解析,帮助读者巩固知识并应对实际工作挑战。原创 2025-05-10 09:58:01 · 1413 阅读 · 0 评论 -
告别低效工作与专业难题!字节扣子空间开启个性化智能协作新时代(附邀请码)
字节扣子空间(Coze Space)是字节跳动推出的AI Agent平台,由国产大模型驱动,提供任务自动化、专家Agent生态及扩展集成功能。平台支持探索模式和规划模式,适用于文档整理、市场调研、旅行规划等场景,显著提升工作效率和专业支持。内置专家Agent如华泰A股观察助手和用户研究专家,提供股票分析、用户研究等专业服务。个性化服务包括商品推荐和旅行规划。目前处于内测阶段,需邀请码使用。原创 2025-05-08 12:31:07 · 727 阅读 · 0 评论 -
让每个GitHub仓库“开口说话”:DeepWiki如何革新代码理解方式?
DeepWiki是全球首个为GitHub仓库打造的AI文档助手,通过对话式问答、深度分析和智能索引等功能,帮助开发者快速理解复杂代码库。它解决了传统代码阅读中的文档缺失、逻辑复杂和时间成本高等问题,支持公开和私有仓库,已索引3万个仓库并处理40亿行代码。案例显示能显著提升开发效率,未来计划增强多语言支持和调试功能,构建开发者社区。原创 2025-05-08 12:20:26 · 1123 阅读 · 0 评论 -
突破性LLM压缩技术DFloat11:零精度损失,推理速度飙升39倍,显存需求骤降至70%
莱斯大学提出的DFloat11无损压缩框架通过动态长度浮点编码技术,将大型语言模型(LLM)压缩至70%大小,推理速度提升最高39倍,且完全保留原始模型精度。该技术支持单节点运行405B参数大模型,显存占用降低70%,上下文长度延长5倍以上,显著降低硬件成本与部署门槛。原创 2025-05-07 20:17:12 · 838 阅读 · 0 评论 -
GitHub惊现AI系统提示开源项目!揭秘Cursor/Manus等工具安全风险
GitHub上出现了一个公开主流AI工具系统提示和内部模型配置的仓库,引发开发者社区对AI透明度与安全性的讨论。文章分析了系统提示的技术意义、潜在安全风险,并提出了开发者应对建议,如动态提示生成和权限分级管理。同时介绍了ZeroLeaks服务,呼吁开发者加强安全审计。原创 2025-05-06 20:55:55 · 515 阅读 · 0 评论 -
一文搞懂机器学习的基础概念
过拟合(Overfitting)模型在训练数据上表现极佳(训练误差低),但在新数据(测试集或真实场景)上表现显著下降(泛化误差高)。本质原因:模型过度学习了训练数据中的噪声或偶然规律,导致对数据细节的“死记硬背”欠拟合(Underfitting)模型在训练数据和新数据上均表现不佳(训练误差和泛化误差均高)。本质原因:模型复杂度不足,未能捕捉数据中的关键特征与规律核心原因分析过拟合的成因数据问题:训练数据量少、噪声多,或与测试集分布差异大模型问题。原创 2025-03-27 19:42:59 · 1014 阅读 · 0 评论 -
2025年必备技术:MCP如何让AI像人一样与世界对话
Model Context Protocol Servers(MCP服务器)是由Anthropic公司推出的开放协议标准中的一部分,旨在为大型语言模型(LLM)提供标准化接口,使其能够安全、高效地访问外部数据源和工具。我们可以看看官网的介绍:可以看到,官方是将MCP定义为USB-C端口,类似我们的万能插头,特点如下:•“万能插座”:MCP统一接口如同标准插座,让AI插头自由连接任何数据源•“通用翻译官”:消除AI与外部系统的语言差异,实现无障碍沟通。原创 2025-03-12 12:02:01 · 1159 阅读 · 0 评论 -
中国AI逆天操作!阿里32B小模型暴打671B巨兽,成本直降90%!
QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。原创 2025-03-06 15:39:22 · 342 阅读 · 0 评论 -
DeepSeek开源的3FS:AI数据处理的“高铁”来了,但能飙多快?
3FS是AI数据处理的“超级快递分拣中心”。原创 2025-03-04 13:44:00 · 774 阅读 · 0 评论 -
DeepSeek开源周第四弹!DeepSeek开源三剑客:训练效率的“时空魔术师”与“资源管家”全解析
DeepSeek这三款工具,如同训练界的“时空魔术师”与“资源管家”,通过算法优化与智能调度,让大模型训练既高效又省钱。但正如工厂流水线需要定期维护,使用这些工具时也需结合具体场景调优,才能发挥最大效能~ 🚀。原创 2025-02-28 21:37:28 · 1101 阅读 · 0 评论 -
DeepSeek开源周第三弹!揭秘AI计算新神器DeepGEMM:300行代码如何吊打专家优化?
DeepGEMM用极简代码诠释了“大道至简”的优化哲学,虽受限于硬件生态,但其技术思路已为AI计算工具链注入新活力。正如社区开发者所言:“它像一盏路灯,照亮了GPU优化的未来方向。原创 2025-02-27 16:10:58 · 652 阅读 · 0 评论 -
DeepSeek开源周第二弹!DeepEP:解锁混合专家模型的高效通信之钥
DeepEP的推出,标志着MoE模型从理论研究迈向高效落地的关键一步。对于追求极致性能的团队而言,它既是工具,也是未来架构设计的风向标。然而,硬件依赖与生态门槛仍需时间跨越——毕竟,技术革命的背后,永远是算力、算法与工程的协同进化。原创 2025-02-26 16:21:34 · 825 阅读 · 0 评论 -
DeepSeek开源周首弹!FlashMLA如何榨干H800性能?——大模型推理的“涡轮增压器”来了
2025年2月24日,DeepSeek在“开源周”首日抛出技术王炸——FlashMLA,专为英伟达Hopper架构GPU(如H800/H100)优化的高效MLA解码内核。短短数小时,GitHub Star突破4000,海外开发者直呼“这才是真OpenAI”。究竟是什么技术让全球AI圈如此疯狂?原创 2025-02-25 12:18:59 · 478 阅读 · 0 评论 -
AI学习之路(一):一文学习deepseek的创新之处
本文深度解析DeepSeek五大核心技术突破:①开源策略打破技术壁垒,类比"全民可用的智能计算器";②MLA注意力机制通过KV压缩降低93.3%显存消耗;③MoE架构实现50%训练成本削减;④混合精度框架兼顾计算效率与模型精度;⑤强化学习+思维链技术提升复杂任务处理能力。结合医疗诊断、金融风控等场景案例,揭秘其如何通过工程创新在文本、图像、音频多模态处理中实现突破,推动AI技术在垂直领域的低成本落地与规模化应用。原创 2025-02-23 17:58:44 · 1170 阅读 · 0 评论 -
AI时代打工人的“十倍暴击“生存指南:你的工位正在被GPT化!
当ChatGPT开始撰写周报、Midjourney接管设计需求,职场人如何避免被AI浪潮淘汰?本文深度解析吴恩达提出的「10倍专业人士」理论,揭秘电商、医疗、营销等领域的AI增效实战案例。从「AI炼丹术」到「人机合体技」,教你用GPT化工作流实现生产力十倍暴增,打造不可替代的职场竞争优势。拒绝躺平,掌握与AI共舞的生存法则!原创 2025-02-22 17:16:50 · 306 阅读 · 0 评论 -
从青铜到王者:30组魔法公式解锁DeepSeek隐藏潜能
从青铜到王者:30组魔法公式解锁DeepSeek隐藏潜能原创 2025-02-18 23:27:36 · 966 阅读 · 0 评论 -
从入门到精通:用Cherry-Studio玩转本地知识库,这个职场神器你值得拥有
从入门到精通:用Cherry-Studio玩转本地知识库,这个职场神器你值得拥有原创 2025-02-17 22:21:43 · 1273 阅读 · 0 评论 -
打破信息茧房!RAG技术如何让AI拥有“实时外挂大脑“?
打破信息茧房!RAG技术如何让AI拥有"实时外挂大脑"?原创 2025-02-15 18:04:16 · 381 阅读 · 0 评论 -
薅百度羊毛指南:白嫖Deepseek-R1的「满血版」正确姿势
薅百度羊毛指南:白嫖Deepseek-R1的「满血版」正确姿势原创 2025-02-13 00:10:03 · 1073 阅读 · 0 评论 -
用Ollama三分钟部署DeepSeek!零配置+小白友好,让你的电脑秒变AI神器
用Ollama三分钟部署DeepSeek!零配置+小白友好,让你的电脑秒变AI神器原创 2025-02-12 00:20:16 · 1290 阅读 · 0 评论 -
简述ChatGPT对开发的影响分析
随着人工智能技术的快速发展,自然语言处理技术也得到了迅猛的发展。ChatGPT(Generative Pre-trained Transformer)是近年来自然语言处理领域中的一种重要技术。该技术采用预训练的方式进行语言建模,能够生成流畅、自然的文本。本文旨在探讨ChatGPT如何对软件开发产生影响。原创 2023-03-26 00:09:28 · 5580 阅读 · 0 评论 -
简述ChatGPT和微信公众号结合的前景和应用
随着人工智能的迅速发展和应用,ChatGPT已经成为人们在智能交互领域的新宠。微信公众号作为一个开放、高效、广泛使用的社交平台,与ChatGPT的结合必将创造更多的机会和应用前景。本文将介绍ChatGPT和微信公众号各自的功能和优势,并探讨它们结合的好处、ChatGPT在微信公众号中的应用以及如何将ChatGPT集成至微信公众号中。原创 2023-03-23 20:32:11 · 2767 阅读 · 0 评论