
大模型
文章平均质量分 90
爱研究的小牛
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
世界模型之自动驾驶
世界模型正成为人工智能领域最具前景的研究方向之一,特别是在自动驾驶和机器人技术领域,它被视为实现真正智能行为的关键突破点。世界模型本质上是一种能够理解和预测环境动态变化的内部表示系统,使机器能够像人类一样通过"心理模拟"来预判未来可能发生的场景,从而做出更优决策。原创 2025-08-18 21:11:09 · 265 阅读 · 0 评论 -
AI的下一个竞争焦点——世界模型
当前,AI 领域的竞争焦点正从单一模态的大模型转向能够综合理解和预测物理世界的。这一技术被视为实现通用人工智能(AGI)的关键路径,其核心目标是让 AI 系统构建对现实世界的抽象表征,从而支持长时序推理、多模态交互和复杂决策。原创 2025-08-16 23:04:49 · 201 阅读 · 0 评论 -
智能巡检技术浅析
截至2024年,全国铁路营业里程突破16.2万公里,其中高铁达4.8万公里,庞大的基础设施网络亟需更高效、更智能的检测手段。无人机技术通过多传感器融合、人工智能分析和自动化作业,变革传统铁路巡检模式,构建起覆盖轨道、接触网、周边环境的立体化智能监测体系,实现从"人防"到"技防"的质的飞跃。原创 2025-08-15 18:09:26 · 611 阅读 · 0 评论 -
Qwen-Image(阿里通义千问)技术浅析(一)
Qwen-Image(阿里通义千问多模态模型)是阿里巴巴推出的视觉-语言多模态大模型,能够理解图像内容并完成复杂的跨模态任务。原创 2025-08-12 19:20:01 · 290 阅读 · 0 评论 -
Manus创始人深度复盘:AI Agent产品的技术架构与战略转型
成本对比:同样任务处理,中国区单位成本是亚太区的2.3倍。付费转化率:中国区1.2% vs 全球平均4.7%微信/支付宝等超级App的适配代码占比达17%Zstandard:压缩比38%,耗时12ms。每季度需要投入3名高级工程师专职维护兼容性。国际版API平均延迟:180-220ms。中国版特殊部署延迟:480-720ms。信息保持准确率:93%(7天跨度测试)自研算法:压缩比39%,耗时5ms。存储效率:相比纯文本节省68%空间。:本地化部署导致的延迟与费用差异。LZ4:压缩比42%,耗时8ms。原创 2025-08-11 17:39:37 · 204 阅读 · 0 评论 -
深度学习YOLOV8模型如何训练建筑工地工程类桥梁/建筑/裂缝病害检测数据集的训练及应用
数据集描述:深度学习YOLOV8模型如何训练建筑工地工程类桥梁/建筑/裂缝病害检测数据集的训练及应用 建筑物损伤分割与检测数据集 建筑结构健康监测、城市基础设施巡检、AI辅助工程评估等方向的研究与应用。原创 2025-08-11 17:12:23 · 898 阅读 · 0 评论 -
大模型 GraphRAG 技术浅析(一)
GraphRAG技术利用图数据库(如Neo4j、ArangoDB等)来存储和组织知识,其中节点代表实体(如人、地点、概念等),边代表实体之间的关系(如“属于”、“位于”、“朋友”等)。通过图结构,GraphRAG能够捕捉到更复杂的关系和语义信息,从而在检索和生成过程中提供更丰富、更准确的信息。原创 2025-03-31 15:08:11 · 111 阅读 · 0 评论 -
大模型 rag 技术浅析(一)
RAG技术的主要思想是通过检索模块从外部知识库中获取相关信息,然后将这些信息与用户输入一起传递给生成模块,从而生成更准确、更有针对性的回答。这种方法可以有效缓解大语言模型在知识更新和特定领域知识不足方面的问题。原创 2025-03-30 20:55:48 · 139 阅读 · 0 评论 -
Deepseek技术浅析(六):模型推理
DeepSeek 作为一种先进的深度学习模型,其推理技术对于实现高效、准确的生成和预测至关重要。原创 2025-02-12 18:02:48 · 1544 阅读 · 0 评论 -
Deepseek技术浅析(五):强化学习与多词元预测
DeepSeek 作为一种先进的深度学习模型架构,不仅集成了专家混合模型(Mixture of Experts, MoE)和动态路由机制,还引入了强化学习(Reinforcement Learning, RL)和多词元预测(Multi-token Prediction)等技术,以进一步提升模型在复杂任务中的表现。强化学习是一种通过与环境的交互进行学习的机器学习范式,其核心思想是智能体(Agent)通过试错(Trial and Error)来学习策略(Policy),以最大化累积奖励(Cumulative R原创 2025-02-12 11:48:45 · 1512 阅读 · 0 评论 -
Deepseek技术浅析(四):专家选择与推理机制
DeepSeek 的整体架构可以概括为“专家混合模型”(MoE)专家网络(Expert Networks)定义:多个独立的子网络,每个子网络擅长处理特定类型的任务或数据。特点:每个专家网络可以是不同类型的神经网络架构,例如前馈网络(Feedforward Network)、卷积神经网络(CNN)、循环神经网络(RNN)、Transformer 等。数量:通常有数十到数百个专家网络,具体数量取决于任务复杂度和计算资源。门控网络(Gating Network)定义。原创 2025-02-05 23:10:03 · 1929 阅读 · 0 评论 -
Deepseek技术浅析(三):训练方法
Deepseek 是一个先进的深度学习平台,其训练方法涵盖了多种前沿技术,包括 分布式训练、混合精度训练、强化学习与多词元预测、持续学习与微调 以及 人类反馈的强化学习(RLHF)。分布式训练通过将计算任务分配到多个设备(如 GPU、TPU)或多个节点上,加速模型训练。数据并行是最常见的分布式训练方法,将数据分片分配到多个设备上,每个设备计算梯度并同步更新模型参数。数据并行的梯度更新公式为:其中: 是模型参数。 是学习率。数据分片:将训练数据分片分配到多个设备上。梯度计算:每个设备计算本地梯度。梯度同步:通原创 2025-02-05 18:08:17 · 2613 阅读 · 0 评论 -
Deepseek技术浅析(二):大语言模型
DeepSeek 作为一家致力于人工智能技术研发的公司,其大语言模型(LLM)在架构创新、参数规模扩展以及训练方法优化等方面都达到了行业领先水平。原创 2025-01-29 20:57:13 · 3175 阅读 · 0 评论 -
Deepseek技术浅析(一)
DeepSeek 是北京深度求索人工智能基础技术研究有限公司推出的人工智能技术品牌,专注于大语言模型(LLM)的研发与应用。其技术涵盖了从模型架构、训练方法到应用部署的多个层面,展现出强大的创新能力和应用潜力。以下将详细介绍 DeepSeek 的核心技术、工作原理以及具体实现方式。原创 2025-01-29 16:55:03 · 16857 阅读 · 1 评论