我终于本地部署了DeepSeek-R1（图文全过程）

最新推荐文章于 2025-05-29 14:02:22 发布

giszz

最新推荐文章于 2025-05-29 14:02:22 发布

阅读量3.6k

点赞数 62

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/giszz/article/details/146160133

找了一个空闲的时间，仔细研究了一下本地化部署DeepSeek。电脑不行，但是部署起来并不是很难。

看来如果做一个简单的一体机，还是很容易的，不过需要开启本地知识库的能力，建立向量数据库，并能够查询。这个也在测试，关注我，后续给大家放出更详细的记录。

一、测试你的电脑配置（了解基本参数的概念）

很多跃跃欲试的人，肯定是因为没有GPU，或者觉得自己的电脑配置太低，就放弃了测试，其实只有CPU的电脑，也是可以跑大模型的。当然速度会慢很多，不过学习和体会是够用了。知行合一，不去试一下，肯定对很多过程就没有更具体的感觉。

这里推荐一个很好用的工具：

DeepSeek 模型兼容性检测

点击，https://tools.thinkinai.xyz/，就可以测试了。

这是我的电脑的配置，win10pro，内存16G，共享的显存8G，555……

这是推荐的我的版本：

从图上看到，我可以运行DeepSeek-r1:8b版本，实际证明，这个版本还是可以跑的，就是有点慢，能力也还可以，最后有测试的效果。

这边就不行了，一般我们常说的4090的板子，16G显存左右的，都是能部署到32b就到了。

这个网站提供一个计算器，你可以根据自己需求情况，看配置什么样的计算机。

序列长度是模型一次能处理的最大token数：

• 2K (2048): 标准长度，适合一般对话

• 4K (4096): 中等长度，可处理较长文档

• 8K (8192): 较长上下文，适合长文分析

• 32K+: 超长上下文，可处理书籍级内容

注意事项：

• 序列长度越长，显存占用越大

• 显存占用与序列长度成正比

• 建议根据实际需求选择合适长度

模型参数数量是指神经网络的"大脑容量"，通常以十亿(B)为单位：

• 参数越多，模型的能力越强

• 1B = 10亿参数

• 7B/14B 适合单机部署

• 32B+ 通常需要多卡部署

常见参考：

• ChatGLM2-6B: 6B参数

• DeepSeek-7B: 7B参数

• Llama2-13B: 13B参数

• DeepSeek-67B: 67B参数

参数量越大，需要的显存就越多，请根据实际硬件配置选择合适的模型规模。

我本地部署的是8b，实际已经到了80亿参数。

批次大小决定了模型一次处理的请求数量：

• 1-16: 低延迟场景

- 适合实时聊天

- 最小响应时间

- 较低显存占用

• 32-64: 平衡延迟和吞吐量

- 适合混合工作负载

- 中等显存占用

- 高效资源利用

• 64+: 高吞吐量场景

- 批处理

- 最大GPU利用率

- 更高显存需求

注意：

• 批次越大，显存占用越高

• 根据实际并发需求选择

• 动态批处理可自动调整批次大小

• 设置批次大小时考虑内存约束

• Tensor并行影响最佳批次大小