神经网络加速器：从密集到稀疏的技术解析

# 神经网络加速器：从密集到稀疏的技术解析 ## 1. NeuroMAX密集CNN加速器 ### 1.1 高阶卷积处理 NeuroMAX加速器主要针对3×3和1×1卷积进行优化，但也可用于加速更大的内核尺寸。以5×5卷积为例，由于PE矩阵大小为6×3，宽度大于3且高度大于6的滤波器需要多个周期来计算输出值。具体来说，输入矩阵和权重矩阵的最后两列在时间戳t = 2时加载。生成的部分和（o1 - o18）会被提供给加法器网络1。输出值的计算方式如下： - \(Va0, Va2 = ((o1 + o5 + o9) + (o10 + o14))_{old} + (o1 + o5 + o9)_{new}\) - \(Va1 = ((o4 + o8 + o12) + (o13 + o17))_{old} + (o4 + o8 + o12)_{new}\) 这里的旧值对应于t = 1时输入和权重矩阵的前三列的卷积输出，新值对应于t = 2时的最后两列。4×4卷积也采用类似的配置和数据流图。此外，CONV核心还可以通过选择合适的步长和内核来执行池化操作。 ### 1.2 实现与结果 #### 1.2.1 资源利用与功耗 NeuroMAX加速器已在软件和硬件（Xilinx Zynq - 7020 SoC的PL侧，工作频率为200 MHz）上实现。资源利用和功耗情况如下表所示： | 属性 | 加速器 | 利用率 | | --- | --- | --- | | LUTs | 20,680 | 38% | | FFs | 17,207 | 16% | | 36 kB BRAMs | 108 | 77% | | 功率（W） | 2.727 | NA | #### 1.2.2 成本比较多线程对数PE核心与面积优化的线性乘法器核心在输出位精度和延迟相同的情况下进行成本比较。选择线程数为3时，LUT和FF成本分别仅为线性PE的1.05倍和1.14倍。108个线性PE在成本上约相当于122个多线程对数PE。 #### 1.2.3 硬件利用率 NeuroMAX在不同CNN架构上的平均硬件利用率如下： - VGG - 16：95% - MobileNet v1：84% - ResNet - 34：86% 部分层硬件利用率下降的原因包括：MobileNet和ResNet - 34中的步长为2的卷积仅使用了50%的可用PE核心；VGG16的第一层只有三个通道，每个PE矩阵处理一个通道，导致最后三个PE矩阵闲置，利用率为50%。 #### 1.2.4 性能比较与VWA加速器相比，NeuroMAX使用122个PE核心（成本调整后），比VWA减少了28%，但在吞吐量上有显著提升： - VGG16：吞吐量从166.32 GOPS提升到307.8 GOPS，增加了85% - ResNet - 34：吞吐量从156.91 GOPS提升到281.8 GOPS，增加了79.4% - MobileNet：吞吐量从151.54 GOPS提升到268.92 GOPS，增加了77.4% 与其他先前的设计相比，NeuroMAX在PE数量、峰值吞吐量和峰值吞吐量/PE比率方面表现更优。具体比较如下表所示： | 属性 | NeuroMAX | Eyeriss | Liu et al. | Vogel et al. | VWA | | --- | --- | --- | --- | --- | --- | | 技术 | Zynq - 7020 SoC | 65 nm | Zynq - 7100 | Arria 10 SoC | Virtex - 7 | | 精度（位） | 6位对数 | 16位 | 32fp | 16

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

神经网络加速器：从密集到稀疏的技术解析

相关推荐

专栏目录

神经网络加速器：从密集到稀疏的技术解析

相关推荐

multi-BP.zip_人工智能/神经网络/深度学习_Visual_C++_

NeuralNetStudio：开源递归神经网络程序（RNN）。 [MATLAB]

卷积神经网络加速器：从密集到稀疏的技术解析

稀疏卷积神经网络加速器：Sparse-PE与Phantom的技术解析

卷积神经网络加速技术：编码解码与架构解析

【矩阵求解进化论】：从密集到稀疏，求解方法的革新

卷积神经网络加速：CPU与加速器协同调度技术解析

深入解析Eyeriss v1与v2：深度神经网络加速器论文

PYNQ平台的神经网络扩展性：从单模型到多模型部署的策略解析

高效CNN加速器：LogMapping与硬件架构解析

MySQL数据库从入门到精通

知名建筑企业不合格品控制程序.doc

专栏目录

最新推荐

二维和三维偏微分方程耦合求解及生命科学中常微分方程问题的解决

模糊推理系统对象介绍

多视图检测与多模态数据融合实验研究

利用Kaen实现PyTorch分布式训练及超参数优化

使用PyTorch构建电影推荐系统

PyTorch神经网络构建与训练全解析

电力电子中的Simulink应用：锁相环、静止无功补偿器与变流器建模

强化学习与合成数据生成：UnityML-Agents深度解析

利用PyTorch进行快速原型开发

模型生产化：从本地部署到云端容器化