
人工智能
文章平均质量分 63
openlabx.org.cn
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
llm-d:面向Kubernetes的高性能分布式LLM推理框架
基于硬件差异(算力/内存/成本)、工作负载特性(QoS/SLO)和实时流量(QPS/请求形状分布),动态计算并部署最优的实例组合(Prefill/Decode/容忍延迟组)。在特定测试中,相比基线,llm-d平均TTFT降低约3倍(S1),或在满足P95 TTFT <=2s SLO下,QPS提升50%(S2)甚至翻倍(S3)。基于vLLM增强的遥测数据,智能地将请求路由至拥有相关KV缓存(尤其是共享前缀)的副本,显著提升缓存命中率,降低首令牌延迟(TTFT)。原创 2025-06-05 07:25:16 · 1648 阅读 · 0 评论 -
NVIDIA GPU Operator 和OpenShift AI系列 通过web控制台安装NFD Operator
2、确保节点特性发现(Node Feature Discovery)在openshift-nfd项目中列出,并且状态为InstallSucceeded(安装成功)。如果安装稍后成功并显示InstallSucceeded(安装成功)消息,您可以忽略失败(Failed)消息。_2、从可用操作符列表中选择节点特性发现(Node Feature Discovery),然后点击安装(Install)。_1、导航到操作符(Operators)→ 已安装操作符(Installed Operators)页面。原创 2025-01-30 07:38:16 · 286 阅读 · 0 评论