一 基础教程
【主要参考】
基于 CUTE 的 GEMM 优化【1】—— Baseline 实现 - 知乎
1.0 整体思路
对于矩阵乘:C=AxB ,cutlass中GEMM是以切分C矩阵为核心,A矩阵和B矩阵会被多次从gmem中读取到smem中。每一个block处理一个C子块,如下图所示:
如图所示,GEMM kernel会有4个block,将C切分为4个子矩阵乘,各自独立,并行计算,互不干扰。A的上半部分会被block0和block2从gmem读到各自的smem上,下半部分会被读到block1和block3的smem中。B矩阵同理,左半边会被block0和block1读到smem中,右边被block2和block3读到各自smem中。
3. 由于