『大模型笔记』高效请求排队:优化大语言模型(LLM)性能 文章目录 一. 起点:基础的推理引擎 二. 问题:“重度用户”会阻塞其他用户 三. 解决方案:公平调度 3.1. 扩展思路 四. 问题:后端队列没有“反压”机制 五. 解决方案:获取后端指标 5.1 扩展思路 六. 替代方案:后端优先级调度 6.1. 后端优先级调度能否完全替代 LLM-Server 的调度功能? 七. 总结与展望 八. 参考文献 系列文章,目录如下: 第0篇:『大模型笔记』基于Transformer的生成式模型分布式服务系统 第1篇:『大模型笔记』高效请求排队:优化大语言模型(LLM)性能 第2篇:『大模型笔记』并发请求中的 Prefill 与 Decode:优化大语言模型性能 第3