VLLM 的PagedAttention 实现中KV Cache 的块（block size）大小的选择内存使用效率的影响

最新推荐文章于 2025-08-07 20:34:45 发布

Hyunnicolou

最新推荐文章于 2025-08-07 20:34:45 发布

阅读量936

点赞数 4

CC 4.0 BY-SA版权

文章标签：机器学习深度学习 python 数据挖掘人工智能 gpt-3 文心一言

本文链接：https://blog.csdn.net/weixin_43667338/article/details/145038628

PagedAttention 的实现中，每个块的大小是一个关键参数。块越大，查找效率越高，但容易浪费内存；块越小，内存利用率更高，但管理开销也更大。根据 vLLM 的开源实现，默认的块大小是 512 tokens。这个值在大多数情况下能平衡内存利用率和性能开销，但可以根据实际应用场景进行调整。对于长序列任务，可以考虑更大块；对于更灵活的动态任务，可以选择较小的块。

块大小的核心影响

GPU 内存利用率：块越大，内存分配越接近传统连续分配；块越小，内存碎片化会减少，但管理开销变大。
注意力计算时的性能：块越小，查找和加载块的次数越多，可能带来性能开销；块越大，查找效率更高，但可能浪费内存。

块大小对内存使用的两大影响：

1️⃣ 碎片化问题
块越大，未使用的部分会浪费更多内存，导致碎片化严重。
每个块的大小是固定的，例如 512 tokens。如果序列长度超过一个块的容量，将分配一个新块。但为了避免内存浪费，PagedAttention 支持块的重用，即未使用的块可以分配给新的序列，减少碎片化。
2️⃣ 动态内存分配的灵活性
块越小，内存分配就越灵活，因为可以根据序列长度的变化，按需分配更多的小块。
但块越小，GPU 每次解码时的查找和加载开销也会变大。