5位CNN权重的算术编码与解码技术解析

### 5位CNN权重的算术编码与解码技术解析 #### 1. 解码示例为了更好地理解5位CNN权重的算术解码过程，我们来看一个具体示例。以下是解码过程的详细步骤： | i | 起始范围 | 子范围（j = 0） | 子范围（j = 1） | 子范围（j = 2） | Z(idx) - 灰色阴影部分 | 输出 w | 缩放情况 | 更新后的 idx | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 0 | [0, 255] | [0, 102] | — | — | (0011010010000000)₂ {0} | Lower | 1 | 52 | | 1 | [0, 204] | [0, 81] | [81, 163] | — | (0011010010000000)₂ {0,1} | Middle | 2 | 105 | | 2 | [34, 198] | [34, 99] | — | — | (0001010010000000)₂ {0,1,0} | Lower | 3 | 82 | | 3 | [68, 198] | [68, 120] | [120, 172] | — | (0001010010000000)₂ {0,1,0,1} | Middle | 4 | 164 | | 4 | [112, 216] | [112, 153] | [153, 195] | [195, 216] | (0000110010000000)₂ {0,1,0,1,2} | — | — | 200 | 具体计算过程如下： - 对于元素 “0”，其范围为 `([34 + ⌊164*0.0⌋, 34 + ⌊164*0.4⌋]=[34, 99])`，该元素将被写入 `W[2]`。然后按照较低缩放规则对该子范围进行缩放，得到新的缩放范围 `[68, 198]`（即 `[34*2, 99*2]`）。 - 在下一次迭代中，起始范围为 `[68, 198]`，`Z(3)` 为 `(10100100)₂`（即 164），它位于元素 “1” 的子范围内（`[68 + ⌊130*0.4⌋, 68 + ⌊130*0.8⌋]=[120, 172]`）。因此，将元素 “1” 写入 `W[3]`，并对 `[120, 172]` 进行中间缩放，同时将 `Z(3)` 更新为 100（即 `164 - 64(QTR)`）。之后得到新的缩放范围 `[112, 216]`（即 `[(120 - 64)*2, (172 - 64)*2]`）。 - 接着，对于 `Z(4)` 为 `(11001000)₂`（即 200），计算各权重元素的子范围后，发现它位于 “2” 的子范围内（`[112 + ⌊104*0.8⌋, 112 + ⌊104*1.0⌋]=[195, 216]`），该元素将被存储到 `W[4]`。 - 由于已经解码了五个权重元素，解码过程结束，最终解码后的权重输出为 `W = {0, 1, 0, 1, 2}`。 #### 2. 解码硬件解码硬件采用了特定的架构，其主要组成部分包括： - **位流缓冲区**：用于存储从主内存（或存储设备）传输过来的编码权重位流。 - **概率表**：维护每个权重值的 `F[x]`，其中 `F[0]` 和 `F[32]` 分别始终为 0 和 1，无需存储在表中。 - **解码权重缓冲区**：用于存储解码后的权重元素。解码过程的具体操作步骤如下： 1. 从位流缓冲区中取出 `Z(idx)`（`idx` 为 N 位的起始位索引），将其发送到范围缩放单元。范围缩放单元根据三种情况（上缩放、下缩放和中间缩放）对范围进行缩放。 2. 范围缩放单元输出的缩放范围和概率值（`F[0] - F[32]`）被发送到范围计算单元。范围计算单元为每个权重值计算新的子范围，在设计中并行执行 32 次子范围计算，提高了解码器的性能。 3. 比较器并行比较 `Z(idx)` 值和每个子范围，以确定当前迭代中应写入输出的权重值。 4. 比较完成后，将相应元素存储到解码权重缓冲区。整个过程在控制逻辑的协调下迭代执行。为了验证解码硬件的可行性，在 FPGA 板（Xilinx ZCU106）上进行了实现，使用 Xilinx Vivado 设计套件进行设计。合成设计的时钟频率为 150 MHz，采用 16 个解码单元（DU），其吞吐量是 1 个 DU 解码器实现的 16 倍。为了利用 16 个 DU，将权重元素尽可能均匀地分成 16 块，并将每块编码成单独的位流，解码时将每个位流发送到对应的 DU。在 CNN 推理执行过程中，权重解码必须在卷积操作之前进行。为了减少解码延迟，可以将第 i 层 CNN 权重的传输和解码延迟与第 `(i - 1)` 层 CNN 的执行延迟重叠。要实现这一点，需要满足以下两个条件： - 输入和输出特征图在 CNN 加速器的各层之间重用，无需在内存和加速器的 PLM 之间传输。 - 第 i 层 CNN 的数据传输和解码延迟完全被第 `(i - 1)` 层的执行时间隐藏（`i > 1`）。为满足第二个条件，增加解码硬件中的 DU 数量是有益的，因为更多的 DU 可以进一步降低解码延迟。 #### 3. 评估方法采用了三个指标来评估该技术：压缩比、主内存中的能量消耗和延迟开销。使用了五个 CNN 模型进行基准测试，分别是 Network-in-Network（NiN）、SqueezeNet、GoogleNet、AlexNet 和 CaffeNet，评估中 `N` 取值为 32。 - 使用 Caffe 框架提供的训练好的 FP32 权重。 - 对于 5 位量化，采用增量网络量化（INQ）方法从 32 位全精度权重生成 5 位 2 的幂次量化权重。 - 对于 AlexNet 和 CaffeNet，还额外进行了权重剪枝操作，以研究其对压缩比的影响。评估主要关注 CNN 卷积（CONV）层的压缩比和内存能量消耗，对于延迟开销，假设只压缩 CONV 层的权重，其他层（如全连接层）的权重不进行压缩。 #### 4. 评估结果 - 压缩比和内存能量消耗压缩比（CR）定义为未压缩数据大小 `Su` 与压缩数据大小 `Sc` 的比值，即 `CR = Su / Sc`。以下是五个 CNN 模型的压缩比比较： | CNN 模型 | 32 位 | 16 位 | 8 位 | 5 位 | HC - 5bit | A

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

5位CNN权重的算术编码与解码技术解析

相关推荐

专栏目录

5位CNN权重的算术编码与解码技术解析

相关推荐

基于Python的RED-CNN残差编码-解码卷积神经网络设计源码

卷积神经网络(CNN)：图像分类核心技术解析与TensorFlow实战

基于神经网络的HEVC帧内预测模式算术编码方法

5位CNN权重的算术编码解码及当代密集CNN加速器技术解析

卷积神经网络加速技术：编码解码与架构解析

卷积神经网络（CNN）加速技术的全面解析与未来展望

卷积神经网络加速：CPU与加速器协同调度技术解析

【视频编码技术深度剖析】：H265高效编码与优化策略大公开

存储过程中位运算的艺术：Oracle应用案例解析

高效音视频编解码算法研究

初次使用VScode中的MPE插件写.md文件

2022年智能家居行业发展报告.pptx

专栏目录

最新推荐

自适应复杂网络结构中的同步现象解析

具有多重时滞和不确定参数的CRDNNs的无源性与同步性研究

SSH连接与操作全解析

HNPU-V1：自适应DNN训练处理器的技术解析与性能评估

计算机视觉中的概率图模型：不完整数据下的贝叶斯网络学习

利用大数据进行高效机器学习

OpenVX：跨平台高效编程的秘诀

网络数据上的无监督机器学习

言语节奏与大脑定时模式：探索神经机制与应用

语音情感识别：预加重滤波器与清音影响分析