0 基本内容
0.1 清华团队开源项目
- KTransformers:支持 24GB 显存本地运行
- MOE 架构稀疏性特点
- GPU/CPU 异构计算划分策略
- 高性能 CPU 和 GPU 算子
- CUDA Graph 加速技术
- 兼容 huggingface transformers API
- ChatGPT 式 WEB 界面
0.2 部署环境配置
- CPU:Intel Xeon Gold 6545(Intel 10940X)
- GPU:NVIDIA GeForce RTX4090(RTX2080Ti)
- Memory:DDR5-4800 server DRAM(1TB)(DDR4-2400 DRAM (128GB)with some virtual Memory)
0.3 性能提升
- 预处理速度:最高 286tps
- 推理生成速度:最高 14tps
0.4 技术细节
- MLA 算子优化 attention 计算
- 计算强度决定划分策略
- CPU 和 GPU 高性能算子集成
- 灵活切换量化策略和内核转换
0.5 社区支持
- github:https://github.com/kvcache-ai/ktransformers
1 硬件配置需求
- 显卡:单张 NVIDIA RTX 4090D(24GB 显存)即可满足需求,Q4_K_M 量化版仅需 14GB 显存。
- 内存:标准 DDR5-4800 服务器内存,推荐 382GB 以上。
- CPU:支持双路 Intel Xeon Gold 6454S(共 64 核)以发挥 NUMA 架构优势。
2 核心技术原理
2.1 异构计算划分策略
- 将 MoE 架构中计算强度低的稀疏路由专家层(Routed Expert)卸载到 CPU/DRAM 处理,利用 llamafile 提供高速 CPU 算子。
- 保留计算强度高的稠密层(MLA 注意力机制、共享专家层)在 GPU 处理,采用 Marlin 算子加速量化矩阵计算,相比传统方法提速 3.87 倍。
- 划分依据:通过计算强度(MLA > Shared Expert > Routed Expert)动态分配,直到 GPU 显存占满。
2.2 KV 缓存优化
- 重构 MLA(Multi-Layered Attention)算子的权重融合技术,将
q_proj
和out_proj
权重直接融合,减少 KV 缓存体积达 70%。 - 采用 CUDA Graph 加速技术,将多个 GPU 操作合并为单个内核调用,降低调度开销。
3 部署流程
3.1 环境准备
- 安装 KTransformers 框架,兼容 HuggingFace Transformers API。
- 配置双 NUMA 节点内存绑定,确保 CPU 多线程负载均衡。
3.2 模型加载与量化
- 下载 DeepSeek-R1 671B 的
Q4_K_M
量化版本(约 382GB 存储需求)。 - 通过 YAML 模板注入框架选择量化策略,例如:
quantization:
method: Q4_K_M
expert_offload: cpu_llamafile
dense_layers: gpu_marlin
3.3 性能调优
- 预处理加速:启用
AMX
指令集优化,双路 64 核 CPU 可达到 286 tokens/s。 - 生成加速:选择6专家激活模式(仅 V0.3+ 支持),生成速度提升至 14 tokens/s。
- 内存管理:采用 NUMA 感知的内存分配策略,避免跨节点访问延迟。