稀疏卷积神经网络加速器：Sparse-PE与Phantom的技术解析

### 稀疏卷积神经网络加速器：Sparse - PE与Phantom的技术解析 #### 1. Sparse - PE加速器 Sparse - PE是一种用于稀疏卷积神经网络的多线程通用点积核心。它通过利用权重和激活值的双边稀疏性，即权重和激活值中都存在的稀疏性，来最大化吞吐量和硬件利用率。 ##### 1.1 存储格式优势在低激活稀疏度的情况下，对于稀疏的VGG16和Mobilenet，CSC格式的DRAM内存访问次数分别约为稀疏掩码的4倍和3.7倍。在具有中高稀疏度的深层中，CSC格式的内存需求约为稀疏掩码的1.7倍。这表明稀疏二进制掩码格式不仅需要较少的编码/解码逻辑，而且在内存需求方面比CSC格式更高效，这直接为采用稀疏二进制掩码的加速器带来了更高的能源、面积和计算节省。 ##### 1.2 RTL实现使用Xilinx Z - 7100 SoC来实现Sparse - PE核心设计。该SoC分为两部分：可编程逻辑（PL），包含FPGA结构；处理系统（PS），包含ARM内核。两者通过AXI片上通信子系统连接。Sparse - PE核心在PL上实现，PS用于在台式计算机和PL之间传输数据。测试设计针对Sparse - PE - 27配置实现，运行频率为200 MHz。 | 属性 | 可用资源 | 已使用资源 | 利用率(%) | | ---- | ---- | ---- | ---- | | LUTs | 277k | 3.4k | 1.23% | | FFs | 554k | 6k | 1.1% | | 片上SRAM | 26.5Mb | 2.1kB | 0.01% | Sparse - PE核心的查找表（LUT）和触发器（FF）成本主要由选择（SL）块占据，SL块分别占用了约40%和34%的整体LUT和FF资源。由于位映射和缓冲FIFO，SRAM利用率主要由计算（CM）块主导。该设计的功耗为2.48W，其中PS占主导（55%）。 ##### 1.3 与其他加速器的比较 | 属性 | Sparse - PE加速器 | Eyeriss v2 | SparTen | ZASCA | Zhu et al. | Xie et al. | Lu et al. | | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | | 技术 | Z - 7100 | 65nm | Cyclone IV | 65nm | ZCU102 | Aria 10 | ZCU102 | | 精度(位) | 8 - bit | 8 - 20 bits | 8 - bit | 16 - bit | 16 - bit | 8 - bit | 16 - bit | | PE数量 | 252 | 192 | 256 | 192 | 192 | 512 | 288 | | 频率(MHz) | 200 | 200 | 50 | 200 | 200 | 170 | 200 | | 加速器类型 | sparsewa | sparsewa | sparsewa | sparsea | sparsew | sparsew | sparsew | | 资源(LUTs(a), Gates(b)) | 112k(a) | 2695k(b) | 未报告 | 1036k(b) | 390k(a) | 102.6k(a) | 132k(a) | | 仅核心功率(W) |

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

稀疏卷积神经网络加速器：Sparse-PE与Phantom的技术解析

相关推荐

专栏目录

稀疏卷积神经网络加速器：Sparse-PE与Phantom的技术解析

相关推荐

稀疏卷积神经网络加速器设计.docx

脑机接口解码器：TensorFlow-SparseCoding实时解析EEG信号.pdf

Python 代码实现了一个使用稀疏卷积神经网络（Sparse Convolutional Neural Network）

sparse:scalaz-stream 的广义增量解析器组合器

sparse-checkout-example：git sparse-checkout功能的示例仓库

掌握Matlab图像视频去噪算法：awesome-image-denoising库解析

Sparse-PE：稀疏CNN加速器的原理与性能分析

高性能稀疏卷积神经网络计算核心Phantom解析

(15.5.1)--14.5实例：卷积神经网络实现手写数字识别-PPT1

matlab把m文件生成c代码-sparse-ncnet:稀疏NCNet的实现：“通过子流形稀疏卷积的有效邻域共识网络”

史上最强C语言教程----分支和循环（3）

学位论文-—网络财务的安全风险及防范.doc

专栏目录

最新推荐

自适应复杂网络结构中的同步现象解析

OpenVX：跨平台高效编程的秘诀

语音情感识别：预加重滤波器与清音影响分析

言语节奏与大脑定时模式：探索神经机制与应用

利用大数据进行高效机器学习

SSH连接与操作全解析

具有多重时滞和不确定参数的CRDNNs的无源性与同步性研究

计算机视觉中的概率图模型：不完整数据下的贝叶斯网络学习

HNPU-V1：自适应DNN训练处理器的技术解析与性能评估

网络数据上的无监督机器学习