基于Transformer的生成式模型分布式服务系统 文章目录 一、生成模型的推理过程 二、当前推理系统的局限 1. 不灵活的请求级调度(request-level batch) 2. 批处理受限于请求形状不同 三、Orca 系统架构 四、性能评估 总结 参考资料 系列文章,目录如下: 第0篇:『大模型笔记』基于Transformer的生成式模型分布式服务系统 第1篇:『大模型笔记』高效请求排队:优化大语言模型(LLM)性能 第2篇:『大模型笔记』并发请求中的 Prefill 与 Decode:优化大语言模型性能 第3篇:<