找了一个空闲的时间,仔细研究了一下本地化部署DeepSeek。电脑不行,但是部署起来并不是很难。
看来如果做一个简单的一体机,还是很容易的,不过需要开启本地知识库的能力,建立向量数据库,并能够查询。这个也在测试,关注我,后续给大家放出更详细的记录。
一、测试你的电脑配置(了解基本参数的概念)
很多跃跃欲试的人,肯定是因为没有GPU,或者觉得自己的电脑配置太低,就放弃了测试,其实只有CPU的电脑,也是可以跑大模型的。当然速度会慢很多,不过学习和体会是够用了。知行合一,不去试一下,肯定对很多过程就没有更具体的感觉。
这里推荐一个很好用的工具:
点击,https://tools.thinkinai.xyz/,就可以测试了。
这是我的电脑的配置,win10pro,内存16G,共享的显存8G,555……
这是推荐的我的版本:
从图上看到,我可以运行DeepSeek-r1:8b版本,实际证明,这个版本还是可以跑的,就是有点慢,能力也还可以,最后有测试的效果。
这边就不行了,一般我们常说的4090的板子,16G显存左右的,都是能部署到32b就到了。
这个网站提供一个计算器,你可以根据自己需求情况,看配置什么样的计算机。
序列长度是模型一次能处理的最大token数:
• 2K (2048): 标准长度,适合一般对话
• 4K (4096): 中等长度,可处理较长文档
• 8K (8192): 较长上下文,适合长文分析
• 32K+: 超长上下文,可处理书籍级内容
注意事项:
• 序列长度越长,显存占用越大
• 显存占用与序列长度成正比
• 建议根据实际需求选择合适长度
模型参数数量是指神经网络的"大脑容量",通常以十亿(B)为单位:
• 参数越多,模型的能力越强
• 1B = 10亿参数
• 7B/14B 适合单机部署
• 32B+ 通常需要多卡部署
常见参考:
• ChatGLM2-6B: 6B参数
• DeepSeek-7B: 7B参数
• Llama2-13B: 13B参数
• DeepSeek-67B: 67B参数
参数量越大,需要的显存就越多,请根据实际硬件配置选择合适的模型规模。
我本地部署的是8b,实际已经到了80亿参数。
批次大小决定了模型一次处理的请求数量:
• 1-16: 低延迟场景
- 适合实时聊天
- 最小响应时间
- 较低显存占用
• 32-64: 平衡延迟和吞吐量
- 适合混合工作负载
- 中等显存占用
- 高效资源利用
• 64+: 高吞吐量场景
- 批处理
- 最大GPU利用率
- 更高显存需求
注意:
• 批次越大,显存占用越高
• 根据实际并发需求选择
• 动态批处理可自动调整批次大小
• 设置批次大小时考虑内存约束
• Tensor并行影响最佳批次大小
大家比较陌生的估计是这个量化类型,他的含义如下:
量化是压缩模型参数的一种方法,不同量化类型对应不同的参数存储大小:
</