一 使用
* 直接git clone源码:可以不下载cutlass,后续再安装
* 将之前下载好的cutlass直接传到deepGemm中的third-party文件夹
* 执行 python setup.py install即可完成安装
* 执行python tests/test_core.py 完车测试,如果报错,则再安装一次(可能是缓存的问题)
二 mma_utils.cuh分析
2.1 SM90_64x128x32_F32E4M3E4M3_SS
struct SM90_64x16x32_F32E4M3E4M3_SS {
__device__ static void wgmma(uint64_t const& desc_a, uint64_t const& desc_b,
float& d00, float& d01, float& d02, float& d03, float& d04, float& d05, float& d06, float& d07,
bool scale_d) {
asm volatile("{\n"
".reg .pred p;\n"
"setp.ne.b32 p, %10, 0;\n"