什么是 KV Cache（Key-Value Cache）

最新推荐文章于 2025-06-16 16:43:45 发布

原创最新推荐文章于 2025-06-16 16:43:45 发布 · 3.3k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#KV Cache #推理优化 #Transformer #pytorch #python #大模型

大模型专栏收录该内容

104 篇文章

订阅专栏

KV Cache（Key-Value Cache）是大模型（特别是Transformer架构）在推理过程中常用的一种优化技术，主要用于加速自回归生成任务（如文本生成）中的计算效率。它通过缓存中间计算结果（键和值的张量），避免重复计算，从而显著降低推理的计算量和延迟。以下是对KV Cache的详细介绍，包括其背景、原理、实现方式、优缺点以及应用场景。

1. 背景

在Transformer模型（如GPT系列、LLaMA等）中，自回归生成是一个逐 token 生成的过程。每次生成一个新 token，模型需要基于当前输入序列重新计算整个注意力机制（Attention）的键（Key）和值（Value）。具体来说：

Transformer 的注意力机制依赖于查询（Query）、键（Key）和值（Value）之间的交互。
对于自回归任务，输入序列会逐渐增长（每次增加一个新 token），但前缀序列（之前生成的 token）是不变的。
如果每次都重新计算整个序列的键和值，会导致大量重复计算，尤其在长序列生成时，计算开销会显著增加。

KV Cache 的核心思想是：将之前计算过的键和值缓存下来，仅计算新增 token 的键和值，然后复用缓存结果，从而避免重复计算。

2. KV Cache 的工作原理

2.1 Transformer 注意力机制回顾

在 Transformer 的自注意力机制中，对于一个输入序列 $X = [x_1, x_2, ..., x_t]$ ，每个 token 的表示会通过线性变换生成查询、键和值：

查询： $Q = XW_Q$
键： $K = XW_K$
值： $V = XW_V$

注意力计算公式为：
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
其中：

$Q$ 、 $K$ 、 $V$ 是形状为 $t, d_k)$ 的张量（ $t$ 为序列长度， $d_k$ 为每个头的维度）。
$QK^T$ 的结果是一个 $(t, t)$ 的注意力分数矩阵。

在自回归生成中，模型每次只生成一个新 token，输入序列从 $x_1, ..., x_t]$ 扩展到 $x_1, ..., x_t, x_{t+1}]$ 。如果每次都重新计算整个序列的 $K$ 和 $V$ ，会非常低效，因为前 $t$ 个 token 的 $K$ 和 $V$ 是完全相同的。

2.2 KV Cache 的作用

KV Cache 的核心是：

缓存每一层的 $K$ 和 $V$ ：在 Transformer 的每一层（多头注意力机制）中，将计算得到的 $K$ 和 $V$ 张量存储到内存中。
增量计算：当生成新 token 时，仅计算新 token 的 $Q$ 、 $K$ 、 $V$ ，并将新 token 的 $K$ 和 $V$ 追加到缓存中。
复用缓存：在注意力计算中，使用缓存的 $K$ 和 $V$ ，结合新 token 的 $Q$ ，计算注意力输出。

2.3 工作流程

假设当前序列为 $x_1, x_2, ..., x_t]$ ，KV Cache 的工作流程如下：

初始化：
- 在生成第一个 token 时，计算整个序列的 $Q$ 、 $K$ 、 $V$ 。
- 将 $K$ 和 $V$ 存储到 KV Cache 中（通常按层和注意力头组织）。
生成新 token：
- 输入新 token $x_{t+1}$ ，计算其 $Q_{t+1}$ 、 $K_{t+1}$ 、 $V_{t+1}$ 。
- 从 KV Cache 中读取之前所有 token 的 $K$ 和 $V$ ，构成 $Kcache=[K1,K2,...,Kt]K_{\text{cache}} = [K_1, K_2, ..., K_t]$ 和 $Vcache=[V1,V2,...,Vt]V_{\text{cache}} = [V_1, V_2, ..., V_t]$ 。
- 将 $K_{t+1}$ 和 $V_{t+1}$ 追加到 KV Cache。
- 计算注意力：
  $\text{Attention}(Q_{t+1}, [K_{\text{cache}}, K_{t+1}], [V_{\text{cache}}, V_{t+1}])$
重复：继续生成下一个 token，重复上述步骤。

2.4 缓存的存储结构

按层和头组织：KV Cache 通常为每个 Transformer 层和每个注意力头维护单独的缓存。
张量形状：
- 对于一个序列长度为 $t$ 、批大小为 $b$ 、注意力头数为 $h$ 、头维度为 $d_k$ ，缓存的 $K$ 和 $V$ 形状为 $b, h, t, d_k)$ 。
- 随着序列增长， $t$ 会不断增加。
存储位置：KV Cache 通常存储在 GPU 显存中，以保证快速访问。

3. KV Cache 的优点

显著降低计算量：
- 没有 KV Cache 时，每次生成新 token 需要重新计算整个序列的 $K$ 和 $V$ ，计算复杂度为 $O(t^2)$ （注意力机制的二次复杂度）。
- 使用 KV Cache 后，仅计算新 token 的 $K$ 和 $V$ ，计算复杂度降为 $O (t)$ ，极大地提高了推理效率。
加速推理：
- 尤其在长序列生成任务中（如对话、文章生成），KV Cache 可以大幅减少推理时间。
易于实现：
- KV Cache 的实现相对简单，只需在推理代码中添加缓存逻辑，无需修改模型结构。

4. KV Cache 的缺点与挑战

内存开销：
- KV Cache 需要存储每一层、每个注意力头的 $K$ 和 $V$ ，内存需求随序列长度 $t$ 线性增长。
- 对于长序列或多层大模型，显存占用可能成为瓶颈。例如：
  - 一个 70B 模型，32 层，16 个注意力头，序列长度 2048，头维度 128，单精度浮点（FP16），KV Cache 占用约为：
    $32 \times 16 \times 2048 \times 128 \times 2 \times 2 \text{(bytes)} \approx 8.5 \text{GB}$
  - 对于更长序列或更大模型，显存需求会更高。
内存管理复杂性：
- 需要高效管理缓存的分配和释放，尤其在多用户或多轮对话场景下。
- 如果缓存未及时清理，可能导致显存泄漏。
对序列长度的依赖：
- 当序列长度超过一定限制（受显存限制），需要截断缓存或使用其他优化技术（如窗口注意力）。
不支持某些任务：
- KV Cache 主要适用于自回归生成任务，对于非自回归任务（如机器翻译的编码-解码模型）效果有限。

5. 优化与扩展

为了解决 KV Cache 的局限性，业界提出了一些优化方法：

量化与压缩：
- 对 KV Cache 应用量化技术（如 INT8 或 4-bit 量化），减少内存占用。
- 使用稀疏化或低秩分解压缩 $K$ 和 $V$ 。
滑动窗口注意力：
- 限制 KV Cache 的大小，只保留最近 $N$ 个 token 的 $K$ 和 $V$ ，适用于长序列生成。
多查询注意力（Multi-Query Attention）：
- 减少注意力头数，降低 KV Cache 的存储需求。
硬件加速：
- 利用 GPU 或 TPU 的内存管理优化（如显存分片），提高缓存访问效率。
分布式推理：
- 在多 GPU 环境中，将 KV Cache 分片存储到不同设备上。

6. 应用场景

KV Cache 广泛应用于以下场景：

对话系统：如 chatbot、虚拟助手，生成长对话时复用历史 token 的计算结果。
文本生成：如文章生成、代码补全，处理长序列生成任务。
实时推理：在低延迟场景（如在线翻译、语音交互）中加速推理。
大模型部署：在生产环境中优化 Transformer 模型的推理性能。

7. 实现示例（伪代码）

以下是一个简化的 KV Cache 实现伪代码（基于 PyTorch）：

class KVCache:
    def __init__(self, num_layers, num_heads, head_dim):
        self.cache = {
            layer: {'K': [], 'V': []}
            for layer in range(num_layers)
        }
        self.num_heads = num_heads
        self.head_dim = head_dim

    def update(self, layer, K, V):
        """将新 token 的 K 和 V 追加到缓存"""
        self.cache[layer]['K'].append(K)  # 形状: (batch, heads, 1, head_dim)
        self.cache[layer]['V'].append(V)  # 形状: (batch, heads, 1, head_dim)

    def get(self, layer):
        """获取缓存的 K 和 V"""
        K = torch.cat(self.cache[layer]['K'], dim=2)  # 形状: (batch, heads, seq_len, head_dim)
        V = torch.cat(self.cache[layer]['V'], dim=2)  # 形状: (batch, heads, seq_len, head_dim)
        return K, V

def attention_with_kv_cache(Q, K, V, kv_cache, layer):
    """使用 KV Cache 的注意力计算"""
    # 更新缓存
    kv_cache.update(layer, K, V)
    # 获取完整的 K 和 V
    K_cached, V_cached = kv_cache.get(layer)
    # 计算注意力
    scores = torch.matmul(Q, K_cached.transpose(-1, -2)) / sqrt(Q.size(-1))
    weights = torch.softmax(scores, dim=-1)
    output = torch.matmul(weights, V_cached)
    return output

8. 总结

KV Cache 是一种简单而高效的优化技术，通过缓存 Transformer 模型中注意力机制的键和值，显著降低了自回归生成任务的计算开销。它在大模型推理服务中几乎是标配技术，尤其在对话系统、文本生成等场景中应用广泛。然而，KV Cache 也带来了内存管理的挑战，需要结合量化、滑动窗口等技术进一步优化。