大模型推理框架，SGLang和vLLM有哪些区别？

最新推荐文章于 2025-07-28 11:36:19 发布

原创

最新推荐文章于 2025-07-28 11:36:19 发布 · 894 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

先说结论：如果你特别看重高并发处理，或者需要模型能进行多轮聊天、按格式输出，可以选择SGLang。当请求量增多时，SGLang比vLLM的优势更明显，可能性能和并发要求高的场景下的更优。

SGLang是什么？

SGLang全称Structured Generation Language（结构化生成语言），是一个推理框架。主要解决大模型部署中的痛点，优化CPU和GPU，跑出更高的吞吐量。核心是尽量减少重复计算，让大家相对简单的用LLM。

SGLang主要做：一是完成复杂LLM程序，不光是简单的问答，像多轮对话、让模型规划任务、调用外部API，或者生成类似JSON格式的内容，它都可以做。二是前后端配合，用一个前端语言DSL简化编程，后端运行时系统更关注优化调度和多GPU协作。

SGLang的技术：

RadixAttention（基数注意力）：SGLang用基数树（RadixTree）来管理KV缓存。它能让好几个请求共享前面已经算过的部分，特别是在多轮对话这种场景下，缓存命中率能提高3到5倍，延迟自然就降下来了。

结构化输出：SGLang用正则表达式

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

开心的AI频道 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。