
性能优化
文章平均质量分 88
Johnsonjjj
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Pytorch geometric中SparseTensor所包含的COO、CSR、CSC稀疏矩阵存储方式介绍
Pytorch geometric中SparseTensor的三种稀疏矩阵压缩存储方式COO、CSR、CSC介绍转载 2022-07-22 23:36:58 · 1523 阅读 · 1 评论 -
Anatomy of High-Performance Many-Threaded Matrix Multiplication 笔记
Anatomy of High-Performance Many-Threaded Matrix Multiplication文章主要是对GEMM中几种潜在的多线程实现方法进行性能分析。看本篇文章需要先看前置论文:Anatomy of High-Performance Matrix MultiplicationAnatomy of High-Performance Many-Threaded Matrix MultiplicationGEMM分块执行流程(单线程)上图是单线程下GEMM中各分块所原创 2021-01-05 11:43:46 · 1008 阅读 · 1 评论 -
关于多功能单元流水线的延迟(latency)与启动间隔(Initiation interval)
前言因为前段时间在写Intel Intrinsics, 看到latency和Throughput(CPI)一直不太理解。直到今天刚好看到了《计算机体系结构——量化研究方法》中关于MIPS中多功能单元(长延迟)流水线的介绍,才发现两者好像有一定的关系。因此本篇博客主要是我对MIPS中多功能单元(长延迟)流水线中的latency和Initiation interval的理解,以及简单谈一谈它们与指令latency、Throughput的关系。正文《计算机体系结构——量化研究方法》中的MIPS多功能单元流水原创 2020-11-18 23:07:32 · 5735 阅读 · 2 评论 -
论文阅读笔记系列(一)SMAT: An Input Adaptive Auto-Tuner for Sparse Matrix-Vector Multiplication
前言最近一直觉得自己只是在看书,看文献,但是没有尝试动手写一些总结,写一些笔记,导致看书的效率实在太低。因此想做一个论文笔记系列,把自己读的论文简单地总结一下。同时也借此将看过的文献分享给大家,如果有看过相关文献的可以互相讨论一下。第一期我就简单说一说我最近看的一篇论文,SMAT: An Input Adaptive Auto-Tuner for Sparse Matrix-Vector Mu...原创 2020-01-11 15:06:07 · 777 阅读 · 0 评论