VLLM专题（三十九）—自动前缀缓存（二）

AI专题精讲

已于 2025-03-19 10:08:46 修改

阅读量604

点赞数

CC 4.0 BY-SA版权

分类专栏：大模型专题系列文章标签：缓存哈希算法算法

于 2025-03-19 09:11:21 首次发布

本文链接：https://blog.csdn.net/qq_39698985/article/details/146325312

大模型专题系列专栏收录该内容

111 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

前缀缓存（Prefix Caching）是一种在LLM推理中广泛使用的优化技术，旨在避免冗余的提示词（prompt）计算。其核心思想很简单——我们缓存已处理请求的键值缓存（kv-cache）块，并在新请求的前缀与之前请求相同时重用这些块。由于前缀缓存几乎是一种“免费的午餐”，并且不会改变模型输出，因此它已被许多公共端点（例如OpenAI、Anthropic等）和大多数开源LLM推理框架（例如SGLang）广泛采用。

尽管实现前缀缓存的方法有很多，但vLLM选择了一种基于哈希的方法。具体来说，我们通过对每个kv-cache块中的token以及该块之前的prefix中的token进行哈希来标识缓存块。

                    Block 1                  Block 2                  Block 3
         [A gentle breeze stirred] [the leaves as children] [laughe

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI专题精讲

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

VLLM专题（三十六）—自动前缀缓存

03-18

279

PagedAttention 的核心思想是将每个请求的 KV 缓存划分为 KV 块。每个块包含固定数量的标记（tokens）对应的注意力键（keys）和值（values）。PagedAttention 算法允许将这些块存储在非连续的物理内存中，从而通过按需分配内存来消除内存碎片。为了自动缓存 KV 缓存，我们利用以下关键观察：每个 KV 块可以通过块中的标记以及块之前的前缀标记来唯一标识。在上面的例子中，第一个块的 KV 缓存可以通过标记 “一阵轻风吹动” 唯一标识。

vLLM专题（十四）-自动前缀缓存

02-25

519

自动前缀缓存（Automatic Prefix Caching，简称 APC）缓存现有查询的 KV 缓存，以便新查询如果与现有查询共享相同的前缀，可以直接重用 KV 缓存，从而跳过共享部分的计算。有关 vLLM 如何实现 APC 的技术细节，请参阅。

参与评论您还未登录，请先登录后发表或查看评论

vllm并发怎么处理，1秒发送6个请求，服务端是同时回复请求还是列队处理？

本博客，博文仅代表个人操作经验，不能完全解决你的问题，仅供参考，佛系回复。

06-02

1929

vLLM并发请求处理机制解析（150字摘要）： vLLM采用动态批处理策略处理并发请求，会将多个请求合并为批次在GPU上并行执行。日志数据显示"Running: 4-5 reqs"表明系统能同时处理多个请求，"Waiting: 0"说明无排队等待情况。通过KV Cache（使用率0.5%）和Prefix Cache（命中率65.5%）优化推理效率，前者缓存中间计算结果，后者复用相似前缀的激活状态。当并发请求超过硬件负载时才会出现排队（Waiting>0），正常情

Prefix Caching 详解：实现 KV Cache 的跨请求高效复用

cr7258的博客

06-08

1492

前缀缓存（Prefix Caching）是一种大语言模型推理优化技术，它的核心思想是缓存历史对话中的 KV Cache，以便后续请求能直接重用这些中间结果。这样可以显著降低首 token 延迟，提升整体推理效率。Prefix Caching 尤其适用于多轮对话、长文档问答等高前缀复用场景。Few-shot learning（少样本学习）：多个请求都包含相同的 few-shot 示例部分，只是最后的问题不同。

图解大模型计算加速系列：vLLM源码解析3，Prefix Caching

python1234567_的博客

10-05

1602

当一个物理块没有任何逻辑块引用时（例如一个seq刚做完整个推理），这时它理应被释放。

昇腾のPrefix Cache

小白菜的博客

06-27

1029

Prefix Cache 即前缀缓存，是一种用于优化大语言模型（LLM）推理性能的技术，主要应用于多轮对话、系统提示等具有大量共同前缀的场景。LLM 推理计算主要包括 Prefill 阶段（Prompt 计算）和 Decode 阶段。Prefill 阶段为 Decode 阶段准备 KV Cache，通常这些 KV Cache 只为单条推理请求服务，请求结束后会被清除。但在一些场景下，多次请求的 Prompt 可能共享同一个前缀，其 KV Cache 计算结果相同，Prefix Cache 就是将这些相同前缀

vllm 里的 Automatic Prefix Caching 是什么意思，详细讲解下这个概念

最新发布

weixin_40548182的博客

07-04

1085

vLLM 的 Automatic Prefix Caching 本质上是智能复用共享前缀的 KV Cache，以避免重复计算，提升推理效率、吞吐量和显存利用率。它与 Huggingface、Triton 的区别；实现细节中的 PagedAttention；是否支持 Streaming；我可以继续深入解释。需要吗？Q: 多并发场景中 prompt 都不同，Automatic Prefix Caching 还有意义吗？A: 有！因为在实际应用中，并发请求往往存在前缀重复或相似结构。

VLLM专题（二十三）—引擎参数

03-17

177

-modelautogenerateembeddingembedclassifyscorerewardpromptNone--revisionautoslowmistralcustom- 信任 Hugging Face 的远程代码。- 允许 API 请求从服务器文件系统指定的目录读取本地图像或视频。这是一个安全风险，仅在受信任的环境中启用。- 下载和加载权重的目录，默认为 Hugging Face 的默认缓存目录。- 加载模型权重的格式。auto（自动选择）、pt（PyTorch 格式）、

VLLM专题（四十）—指标

03-19

406

确保 v1 版本的 LLM 引擎暴露 v0 版本中所有可用的指标的超集。

vLLM-prefix浅析（System Prompt，大模型推理加速）

张伟的专栏

04-20

4820

本文浅析了在大模型推理加速方面一个非常优秀的项目 vLLM 的一个新特性 Prefix。在 Prompt 中有相同前缀时可以提高吞吐量降低延迟，换句话说可以省去这部分相同前缀在自注意力阶段的重复计算。更新 2024.1.18：Prefix 已经合并到主分支上了！如果你的 vLLM 不能使用也许是时候升级一下体验下新功能哩！

Windows下Node.js安装,环境配置以及prefix和cache设置

李BOY的博客

11-01

2890

Windows下Node.js安装,环境配置以及prefix和cache设置

NodeJS安装时候的两个目录，prefix和cache

qq_41910445的博客

01-23

339

如果不使用-g参数，则为本地安装，会存在对应的项目目录中，例如：在项目目录下执行 npm install lodash，lodash 会被安装到 ./node_modules/lodash 中。无论是本地安装还是全局安装，npm 都会将下载的包文件存储到 cache 目录（你配置的 D:\Nodejs\node_cache）中。注意：缓存中的包只是下载好的压缩文件（如 .tgz），实际的安装目录是 node_modules 或全局目录。NodeJS安装时候的两个目录，prefix和cache。

vllm 参数介绍

张伟的专栏

04-12

6026

一个重要参数enable-prefix-caching 特殊场景会提高很大性能。详细建视频：https://www.toutiao.com/video/7355331984845734435/?channel=&source=search_tabBelow, you can find an explanation of every engine argument for vLLM:--model Name or path of the huggingface mode

大模型优化方法记录

冷夏的专栏

12-13

429

原理&图解vLLM Automatic Prefix Cache(RadixAttention): 首Token时延优化(https://zhuanlan.zhihu.com/p/693556044)AI推理计算框架中的内存优化

VLLM V1 part 4 - KV cache管理

LuchangLi 的专栏

04-08

1683

VLLM V1 part 4 - KV cache block管理

LLM时代中的AI推理优化

世事难料，保持低调

06-15

6848

毫无疑问，AI是当下最热的话题之一，而大模型又是当前AI的主角。几年前，正当深度学习进入瓶颈时，以GPT为首的LLM的横空出世让之似乎又找到了“第二增长曲线”。当模型规模大到一定程度时，它所表现出来的涌现能力（Emergent ability）是之前在小模型中所不曾见过的。这种大模型所特有的推理、计算等能力给我们带来了无穷的想象空间。但是，它的代价是模型和以往模型相比增大了成百上千倍。要玩大模型十亿参数基本是个入门级门槛，上百亿才算像点样。各个大公司为了争夺大模型的话语权，更是将大模型越“卷”越大。

流媒体代理缓存技术研究

gingko li的专栏

10-29

4124

这篇文章是一篇综述性的文章。对IPTV的缓存设计，还是有一定的提示作用。流媒体代理缓存技术研究标准版(信息科学与技术学院,2002(4)班,00263146号)[摘要] 随着流媒体技术在互联网上的广泛应用，原有用于加速Web内容分发的代理缓存技术也被应用于流媒体内容分发领域。然而，由于流媒体对象的一些独特特点，需要在传统Web缓存技术的基础上提出适用于流媒体对象的缓存技术。本丈

vllm的前缀

03-10

### vLLM 前缀含义及用法 #### vLLM 的定义与功能 vLLM 是一个专为大规模语言模型设计的强大推理框架，支持多种应用场景下的高效部署和运行。该工具不仅简化了大语言模型的使用流程，还提供了丰富的配置选项来满足不同需求[^1]。 #### 参数解析对于命令行中的 `--quantization` 参数而言，当指定了具体的量化方法（如 FP8），即使原始模型是非量化的，在服务启动阶段也会尝试应用所选的量化技术对该模型进行转换处理。这意味着像下面两个指令虽然最终提供相似的服务质量，但在初始化过程中存在差异： - 使用内置FP8版本直接加载：`vllm serve meta-llama/Meta-Llama-3.1-405B-Instruct-FP8` - 对非量化版施加FP8量化后再启动：`vllm serve meta-llama/Meta-Llama-3.1-405B-Instruct --quantization fp8` 前者由于已经完成了预量化工作，因此在实际启动时速度更快；而后者则需额外花费时间完成即时量化操作[^2]。 #### 关于前缀的理解在涉及 vLLM 及其关联组件时，“vLLM”本身即作为项目名同时也充当着一系列子命令和服务命名空间的角色。例如，在执行诸如 `vllm serve ...` 这样的命令时，“serve” 就是基于 “vLLM” 主体下的一项具体任务或模式指示符，用于告知程序接下来应按照服务器端口监听的方式运作，并接受来自客户端的各种请求输入。此外，还有其他一些常见的带有 vLLM 前缀的关键字或短语可能出现在配置文件、环境变量或是API接口调用当中，它们通常用来标识那些专门为这个特殊平台定制的功能特性或者是内部机制实现细节。不过这些高级话题超出了当前讨论范围，有兴趣深入了解的话建议查阅官方文档获取更多资料[^3]。 ```bash # 启动带特定分词器模式的服务实例 vllm serve my-model-path --tokenizer-mode slow ```