稀疏卷积神经网络加速器:Sparse-PE与Phantom的技术解析
立即解锁
发布时间: 2025-08-31 00:09:43 阅读量: 2 订阅数: 9 AIGC 

### 稀疏卷积神经网络加速器:Sparse - PE与Phantom的技术解析
#### 1. Sparse - PE加速器
Sparse - PE是一种用于稀疏卷积神经网络的多线程通用点积核心。它通过利用权重和激活值的双边稀疏性,即权重和激活值中都存在的稀疏性,来最大化吞吐量和硬件利用率。
##### 1.1 存储格式优势
在低激活稀疏度的情况下,对于稀疏的VGG16和Mobilenet,CSC格式的DRAM内存访问次数分别约为稀疏掩码的4倍和3.7倍。在具有中高稀疏度的深层中,CSC格式的内存需求约为稀疏掩码的1.7倍。这表明稀疏二进制掩码格式不仅需要较少的编码/解码逻辑,而且在内存需求方面比CSC格式更高效,这直接为采用稀疏二进制掩码的加速器带来了更高的能源、面积和计算节省。
##### 1.2 RTL实现
使用Xilinx Z - 7100 SoC来实现Sparse - PE核心设计。该SoC分为两部分:可编程逻辑(PL),包含FPGA结构;处理系统(PS),包含ARM内核。两者通过AXI片上通信子系统连接。Sparse - PE核心在PL上实现,PS用于在台式计算机和PL之间传输数据。测试设计针对Sparse - PE - 27配置实现,运行频率为200 MHz。
| 属性 | 可用资源 | 已使用资源 | 利用率(%) |
| ---- | ---- | ---- | ---- |
| LUTs | 277k | 3.4k | 1.23% |
| FFs | 554k | 6k | 1.1% |
| 片上SRAM | 26.5Mb | 2.1kB | 0.01% |
Sparse - PE核心的查找表(LUT)和触发器(FF)成本主要由选择(SL)块占据,SL块分别占用了约40%和34%的整体LUT和FF资源。由于位映射和缓冲FIFO,SRAM利用率主要由计算(CM)块主导。该设计的功耗为2.48W,其中PS占主导(55%)。
##### 1.3 与其他加速器的比较
| 属性 | Sparse - PE加速器 | Eyeriss v2 | SparTen | ZASCA | Zhu et al. | Xie et al. | Lu et al. |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 技术 | Z - 7100 | 65nm | Cyclone IV | 65nm | ZCU102 | Aria 10 | ZCU102 |
| 精度(位) | 8 - bit | 8 - 20 bits | 8 - bit | 16 - bit | 16 - bit | 8 - bit | 16 - bit |
| PE数量 | 252 | 192 | 256 | 192 | 192 | 512 | 288 |
| 频率(MHz) | 200 | 200 | 50 | 200 | 200 | 170 | 200 |
| 加速器类型 | sparsewa | sparsewa | sparsewa | sparsea | sparsew | sparsew | sparsew |
| 资源(LUTs(a), Gates(b)) | 112k(a) | 2695k(b) | 未报告 | 1036k(b) | 390k(a) | 102.6k(a) | 132k(a) |
| 仅核心功率(W) |
0
0
复制全文
相关推荐










