
大模型-DeepSeek系列
文章平均质量分 88
欢迎来到“大模型-DeepSeek系列”专栏!本专栏聚焦 DeepSeek 在大模型领域的技术突破与应用实践,涵盖模型架构、训练优化、多模态能力及行业落地案例。我们将深入解析 DeepSeek 的技术细节,探讨其在“后 Transformer 时代”的创新与潜力。
硅基创想家
资深程序员与架构师,在软件开发领域积累了深厚的技术功底和丰富的实践经验。熟练掌握多种编程语言和主流开发框架,对系统架构设计、性能优化有着独到见解。
主导并参与了多个大型项目的从 0 到 1 搭建,成功应对高并发、大数据量等复杂场景的挑战,为业务的高效稳定运行提供坚实技术支撑。
凭借对技术的热爱与不断探索,始终紧跟行业前沿趋势,致力于用技术创新为企业创造更大价值,推动业务的数字化转型与升级。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
技术小白也能上手!如何在AWS等公有云的EC2上自主部署DeepSeek R1
在你自己的基础设施上部署像 DeepSeek R1 这样的大语言模型(LLM),可以让你完全掌控数据隐私和自定义设置。在本指南中,你将学习如何在 AWS EC2 实例上使用 Ollama(用于本地大语言模型管理)和 nextjs-ollama-llm-ui(一个基于 Next.js 的用户界面,用于与模型进行交互)自行托管 DeepSeek R1。原创 2025-03-04 15:46:15 · 642 阅读 · 0 评论 -
DeepSeek 2025年2月16日最新NSA论文解读:硬件适配且可原生训练的原生稀疏注意力机制
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了一种新型的稀疏注意力机制,旨在解决传统Transformer模型在处理长序列时面临的计算和内存瓶颈。该论文通过硬件对齐的块稀疏设计和动态可训练机制,实现了高效且灵活的自注意力计算。其核心贡献在于将稀疏模式的优化从算法层面向硬件计算特性延伸,同时保持端到端的可训练性,为长序列建模提供了新的解决方案。原创 2025-02-20 15:20:44 · 1118 阅读 · 0 评论 -
谁说消费级硬件不能玩 DeepSeek - R1 微调?手把手教你进阶AI玩家
微调像DeepSeek - R1这样的大规模人工智能模型可能需要大量资源,但借助正确的工具,在消费级硬件上进行高效训练是可行的。让我们来探索如何使用LoRA(低秩自适应)和Unsloth来优化DeepSeek - R1的微调,实现更快、更具成本效益的训练。🚀🔧💡。原创 2025-02-18 15:31:05 · 1412 阅读 · 0 评论 -
DeepSeek-R1 论文解读 —— 强化学习大语言模型新时代来临?
近年来,人工智能(AI)领域发展迅猛,大语言模型(LLMs)为通用人工智能(AGI)的发展开辟了道路。OpenAI 的 o1 模型表现非凡,它引入的创新性推理时缩放技术显著提升了推理能力,不过该模型是闭源的。今天,我们深入探讨由 DeepSeek 发布的突破性研究论文,该论文介绍了 DeepSeek-R1。这篇题为《DeepSeek-R1:通过强化学习激发大语言模型的推理能力》的论文,展示了一种前沿的开源推理模型,以及使用大规模强化学习技术训练此类模型的详细方法。原创 2025-01-31 14:42:43 · 8641 阅读 · 0 评论 -
DeepSeek文生图模型Janus-Pro论文解读 —— 多模态AI的革命?
整个AI行业仍在适应最近发布的、震惊人工智能领域的 DeepSeek-R1。1月28日除夕当天的凌晨,DeepSeek 又发布了另一款出色的开源模型 Janus-Pro。这一次,它是一款能与其他顶级相媲美的多模态人工智能模型。在本文中,我们将解读 DeepSeek 的 Janus-Pro 背后的研究论文《JanusPro:通过数据和模型扩展实现统一的多模态理解与生成》。原创 2025-02-01 19:22:03 · 1864 阅读 · 0 评论 -
只需5步,免费使用Ollama本地运行DeepSeek-R1模型
DeepSeek - R1 在人工智能领域引起了不小的轰动。该模型由中国人工智能公司 DeepSeek 开发,常被拿来与 OpenAI 的顶级模型相提并论。围绕 DeepSeek - R1 的兴奋之情,不仅源于其强大的能力,还因为它是开源的,任何人都可以下载并在本地运行。在这篇博客中,我将指导你如何使用 Ollama 在自己的机器上搭建 DeepSeek - R1。原创 2025-02-01 10:54:21 · 1547 阅读 · 0 评论 -
AI界的拼多多-中国人工智能初创公司DeepSeek如何与硅谷巨头竞争
仅此一点就堪称一个里程碑。在一篇解释该技术研发过程的研究论文中,DeepSeek的工程师表示,他们仅使用了领先人工智能公司训练其系统所需的高度专业化计算机芯片的一小部分。斯托伊卡博士和他的学生最近打造了一个名为Sky - T1的人工智能系统,在某些基准测试中,其性能可与OpenAI最新的名为OpenAI o1的系统相媲美。“有600万美元可用于投入的公司数量,远远多于有1亿美元或10亿美元可用于投入的公司数量,”专注于人工智能技术的风投公司Page One Ventures的投资人克里斯·V·尼科尔森说。原创 2025-01-24 15:45:43 · 914 阅读 · 0 评论