
推理引擎
文章平均质量分 79
推理引擎
Luchang-Li
为什么要博客呢?一是为了记录学习,在写作中增强对知识认知深度,二是为了传播知识本身。
正如自动驾驶的不同层级一样,一个人对知识的掌握也分为了很多层级,比如我认为:
L0:对一个东西没有任何认知。
L1:大致了解基本概念,能够使用,但不知道内部深层次的原理,没法表达清楚。
L2: 基本知道内部的原理,能够比较流畅地表达出来。但能够书面表达往往不意味着能够口头表达,比如能写出PPT,但是不意味着能讲好PPT。
L3:能够流畅地,深入浅出地口头表达,能够准确地回答别人的问题和质疑。
所以可见,表达(不管是博客这种书面还是口头表达)都能够加深你对知识的系统认知,表达地清晰与否也直接证明了你的认知深度。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LMCache KV cache存储
LMCache KV cache存储原创 2025-06-12 16:56:23 · 1413 阅读 · 0 评论 -
sglang/VLLM性能评测: bench_serving工具
sglang性能评测和分析原创 2025-05-29 08:33:03 · 1667 阅读 · 0 评论 -
VLLM/sglang lm_eval MMLU等准确度评测
VLLM/sglang lm_eval MMLU等准确度评测原创 2025-05-29 08:18:10 · 307 阅读 · 0 评论 -
sglang radix tree KV cache管理
sglang KV cache管理原创 2025-05-16 12:49:45 · 1231 阅读 · 0 评论 -
不卷的sglang/VLLM大模型推理优化方向机会-武汉-北京
不卷的大模型推理优化方向机会-武汉-北京原创 2025-04-28 11:42:18 · 345 阅读 · 0 评论 -
sglang Dense LLM PD分离部署
sglang Dense LLM PD分离部署原创 2025-05-06 18:40:32 · 1320 阅读 · 0 评论 -
VLLM V1 serve在线推理基本流程
VLLM V1 serve在线推理基本流程原创 2025-04-15 19:42:18 · 961 阅读 · 0 评论 -
VLLM V1 part 4 - KV cache管理
VLLM V1 part 4 - KV cache block管理原创 2025-04-08 10:59:32 · 1674 阅读 · 0 评论 -
VLLM V1 part 5 - graph capture图捕获
VLLM V1 part 5 - graph capture图捕获原创 2025-04-02 18:21:22 · 1593 阅读 · 1 评论 -
VLLM V1 part 3 - Scheduler
VLLM V1 part 3 - Scheduler原创 2025-03-28 16:58:00 · 812 阅读 · 0 评论 -
VLLM V1 offline推理2 - Model Executor
VLLM V1 offline推理2 - Model Executor原创 2025-03-28 15:09:10 · 1032 阅读 · 0 评论 -
VLLM V1 offline推理1 - 基本流程
VLLM V1 offline推理1 - 基本流程原创 2025-03-26 15:10:48 · 1435 阅读 · 0 评论 -
NVIDIA Dynamo源码编译
NVIDIA Dynamo源码编译原创 2025-03-20 16:20:01 · 1258 阅读 · 0 评论 -
DeepSeek MLA原理
DeepSeek MLA Explained原创 2025-03-06 11:27:34 · 1055 阅读 · 0 评论 -
DeepSeek group-limited expert routing和负载均衡
DeepSeek group-limited expert routing原创 2025-03-03 19:24:42 · 1598 阅读 · 0 评论 -
深度学习推理引擎-内存共享算法
深度学习推理引擎-基于优先级图着色的内存共享算法原创 2025-01-25 09:53:29 · 1111 阅读 · 0 评论 -
TensorRT Serialization assertion stdVersionRead == kSERIALIZATION_VERSION failed
[TRT] [E] IRuntime::deserializeCudaEngine: Error Code 1: Serialization (Serialization assertion stdVersionRead == kSERIALIZATION_VERSION failed.Version tag does not match. Note: Current Version: 237, Serialized Engine Version: 239原创 2024-10-18 12:56:18 · 882 阅读 · 0 评论 -
GPU CUDA进行高性能reduce计算的几种方法
GPU CUDA进行高性能reduce计算的几种方法原创 2024-09-11 16:52:01 · 1131 阅读 · 0 评论 -
normalization归一化算子和方差计算数值稳定性方法
normalization算子和方差计算数值稳定性方法原创 2024-09-02 10:28:17 · 1502 阅读 · 0 评论 -
TensorRT Model Optimizer量化和模型导出
TensorRT Model Optimizer量化和模型导出原创 2024-08-07 17:38:45 · 1287 阅读 · 0 评论 -
Unsupported: ONNX export of convolution for kernel of unknown shape
错误提示为Caused by the value '28 defined in (%28 : Float(*, *, *, *, strides=[199692, 66564, 258, 1], requires_grad=0, device=cpu)这种问题一般出现在卷积的权重不是常规的直接的训练参数,而是从其他计算分支计算得到。这里指示了是test.py第10行引起的,也就是pad那一句导致的。这其实是底层infer shape的bug。这使得x的shape重新被完全静态确定。原创 2024-07-19 17:02:16 · 1597 阅读 · 0 评论 -
导出LLaMA ChatGlm2等LLM模型为onnx
通过onnx模型可以在支持onnx推理的推理引擎上进行推理,从而可以将LLM部署在更加广泛的平台上面。此外还可以具有避免pytorch依赖,获得更好的性能等优势。原创 2023-08-05 19:15:07 · 7263 阅读 · 1 评论 -
SentencePiece android ndk编译
LLaMa等LLM语言模型一般使用SentencePiece tokenizer,在端侧部署需要编译和使用其c++版本。在安卓平台使用NDK编译CMakeLists.txt需要进行一些修改:原创 2023-07-27 09:37:17 · 1346 阅读 · 1 评论 -
AWQ模型量化实践
AWQ模型量化实践原创 2023-06-28 10:23:02 · 16062 阅读 · 6 评论 -
一种大于2GB ONNX模型onnxsim优化方法
一种大于2GB模型onnxsim方法原创 2023-04-24 10:36:51 · 5735 阅读 · 2 评论 -
卷积计算转换为矩阵乘计算的几种场景和方法
卷积转矩阵乘原创 2023-04-17 09:09:03 · 3199 阅读 · 0 评论 -
onnx GridSample算子
onnx GridSample算子原创 2023-04-07 09:55:59 · 2085 阅读 · 0 评论 -
CLIP模型导出ONNX模型
CLIP模型导出ONNX模型原创 2023-03-25 11:05:03 · 3552 阅读 · 2 评论 -
ZeroQuant与SmoothQuant量化总结
ZeroQuant SmoothQuant量化总结原创 2023-03-16 14:43:53 · 7946 阅读 · 5 评论 -
N个数选出M个最小或最大值,topk算法
N个数选出M个最小或最大值算法 有时候需要N个数选出M个最小或最大值算法,但并未要求选出的M个数据需要有序排列,那么这使得算法复杂度可以很低。这里给出一种可行的方法,比常见的一些方法具有更加显著的速度。1,找出N个数据的最大和最小值。需要一次N个数据遍历。2,根据最大最小值根据一个间隔创建一个直方图,N个数据遍历一次,进行直方图统计。例如,直方图间隔为k,则每次直方图(CurDat-MinD...原创 2018-04-18 14:54:33 · 5984 阅读 · 1 评论 -
矩阵乘GPU性能优化之split k
矩阵乘splitk性能优化原创 2023-01-13 15:15:27 · 3696 阅读 · 0 评论 -
端侧GPU opencl cast算子
端侧GPU opencl cast算子实现原创 2022-12-23 11:13:42 · 397 阅读 · 0 评论 -
端侧Android GPU opencl image内存和算子开发
opencl image内存和算子原创 2022-12-13 09:33:17 · 1963 阅读 · 0 评论 -
winograd卷积实践
winograd卷积实践原创 2022-11-28 16:54:12 · 3081 阅读 · 0 评论 -
onnx转tflite模型
onnx转tflite模型原创 2022-11-21 19:12:28 · 3572 阅读 · 0 评论 -
android NDK编译openblas和向量检索库faiss
android编译openblas和faiss库,android NDK build openblas and faiss原创 2022-10-26 19:32:11 · 2224 阅读 · 5 评论