一、引言
混合域存算一体(Hybrid-CIM)作为结合数字CIM和模拟CIM优势的方案,正受到广泛关注。东南大学司鑫团队在ISSCC 2025上提出了一种嵌入符号位处理和多比特融合双粒度协同量化的混合存内计算宏,解决了传统混合存内计算精度损失、性能损失和面积开销问题。该芯片在28nm工艺下,针对INT8 MAC操作实现了67.8 TOPS/W的高能效,并代表了混合CIM领域的一个“最平衡点”。
二、 当下问题
图1 混合存算一体的挑战
如图1所示,在设计混合存算一体电路时主要面临以下三个挑战点:
- 数模边界定义问题。现有混合CIM方案在特征输入模式和权重映射方面存在权衡:位并行方案高精度,但硬件开销大;位串行方案硬件开销低,但存在误差污染问题导致精度损失。两者均未能完美解决数模边界问题。
- 位旋转方案中的符号位处理开销。位旋转方案在第一个乘积级加法器中考虑符号位,导致额外的数字硬件开销。
- 模拟部分低位量化能耗过高。模拟部分对低精度贡献的低位进行量化时,存在过多的能量浪费。
本论文为解决上述问题,提出了一种64kb位旋转混合CIM宏,主要创新点概括如下:
- 具有比特旋转特征方案的混合结构,可实现低硬件开销和高精度。
- 嵌入式符号位处理(ESP)混合SRAM阵列,用于低硬件开销计算。
- 多位融合双粒度协同量化器(MF-DGCQ),用于多位多周期低功耗/延迟量化。
三、 创新点
创新点一:位旋转特征输入(Bit-Rotated Feature-In)
在混合计算内存(HCIM)的设计中,我们首先面临一个根本性的抉择:数字计算和模拟计算的边界这直接决定了芯片的性能和成本。以往的设计要么采用“位并行”方案,精度高但电路复杂、硬件开销大;要么采用“位串行”方案,硬件省了,但模拟部分的计算误差影响高位比特的精度,导致整体性能下降。
为了破解这个两难困境,本文提出了一种位旋转特征输入方案。传统的“位并行”是把一个多位数的全部比特一次性推到计算单元前;“位串行”则是从高位到低位发送,效率不高且容易产生误差累积。而“位旋转”则不同,它将输入的特征数据(Feature)的各个比特位安排在一个旋转台上,每个时钟周期,旋转台转动一次,将不同的比特位送到计算单元进行处理。
如图2所展示的整体结构,输入特征首先被GRIB捕获,然后通过旋转机制,在8个周期内(以INT8为例),将特征数据的不同比特位依次送入SRAM阵列进行混合乘加(MAC)运算。这种设计实现了一种“垂直切割”的混合计算模式:对于每一次乘法,一部分计算(例如高位部分)在数字域完成,另一部分(例如低位部分)在模拟域完成,数字结果和模拟结果通过后处理单元(PPU)合并。这种“垂直”分工,避免了传统设计中为了连接不同计算模块而需要的庞大复杂的数字加法器阵列和移位器,节省了硬件资源。
图2 位旋转混合CIM宏的整体结构与操作
创新点二:嵌入式符号位处理(ESP)
引入“位旋转”方案也带来了一个新的挑战:有符号数的处理。在二进制计算中最高位是符号位,如果单独用数字逻辑来处理会增加额外的硬件开销,违背了追求低开销的初衷。为此,本文设计了第二个创新点:嵌入式符号位处理(ESP)混合SRAM阵列。这个设计在SRAM阵列内部就解决了符号问题,无需外部复杂电路的干预。如图3所示,整个阵列由两种特殊的MAC单元构成:符号位MAC单元(SBMC)和混合MAC单元(HBMC)。权重数据的符号位被专门存储在SBMC中,当进行有符号数运算时,图中的“选择性反转数字乘法器”(SRDM)会根据输入特征的符号位(F)来决定是输出原始的乘积结果,还是输出其反码。通过这种嵌入式的设计,符号处理的复杂逻辑被关在SRAM阵列内部,以较低的硬件代价解决了位旋转方案带来的符号处理难题。
图3 GRIB与ESP混合SRAM阵列的详细原理图与操作
创新点三:多比特融合双粒度协同量化器(MF-DGCQ)
模拟MAC的最终结果需要通过模数转换器(ADC)量化为数字信号。然而,对于贡献精度较低的低位比特,如果每个周期都启动一次高精度的ADC,会造成巨大的能量浪费。为了解决这个问题,本文提出了第三个创新点:多比特融合双粒度协同量化器(MF-DGCQ)。这个设计包含了两层含义:
1. 多比特融合(Multi-Bit Fusion)。MF-DGCQ包含一个多比特融合电路(MFC),它由三组开关和三个电容构成。其核心思想是,将多个计算周期产生的、代表低位比特的模拟结果(以耦合电压Vc的形式)先“融合”存储在融合电容上,而不是每次都立即去量化。只有当融合了多个周期的结果后,才启动一次ADC。
2. 双粒度协同量化(Dual-Granularity Cooperative Quantizer)。融合后的电压(Vs)会发往DGCQ,其内部包含粗粒度量化器(CGQ)和细粒度量化器(FGQ)。CGQ通过一个比较器和计数器,快速地“减”掉大部分电压值并计数,最后只把一个很小的残余电压交给高精度的8位SAR-ADC(FGQ)去处理。这种“粗细结合”的方式,进一步提升了量化过程的能效。
四、 实验与结果分析
在能效与面积效率方面,Hybrid-CIM在INT8 MAC操作中,芯片实现了 67.8 TOPS/W 的峰值能效和 1.57 TOPS/mm² 的面积效率(如图4),硬件利用率优势显著。
图4 实测面积效率与能效随供电电压(VDD)的变化关系
在性能与功耗方面,核心的MF-DGCQ模块使性能提升 24%,功耗降低 4.27倍,而相对误差仅为3.57%(如图5),实现了性能与功耗的优化,且精度损失极小。
图5 不同量化方案的归一化性能与功耗对比
与现有先进技术的全面对比
仿真结果对比:通过10000次蒙特卡洛仿真评估计算误差,如图6结果显示,本文提出的位旋转结构在计算误差方面,不仅优于先前其他的混合计算结构[1-3],甚至超越了最先进的位串行结构。
图6 不同混合计算结构的计算误差蒙特卡洛仿真对比
硬件综合性能(FoM)对比: 在衡量硬件综合性能的FoM指标(面积效率 × 能效)上(如图7),本设计相比典型的位并行方案和位串行方案,分别实现了 15.7倍 和 3.38倍 的巨大提升。若采用更全面的FoM指标(内存密度 × 面积效率 × 能效),该工作相比于其他SRAM-CIM宏,提升超过 28%,显示了其在多维度性能上的均衡与领先。
图7 与现有先进技术的硬件综合性能(FoM)对比
在主流AI模型上的应用精度:如图8,在图像分类任务 ResNet-18@ImageNet 上,精度损失仅为 -1.06%。在视觉Transformer模型 ViT@ImageNet 上,精度损失为 -1.75%。在自然语言处理模型 GPT-2@Wikitext-102 上,精度损失更是低至 0.19%。
图8 在主流AI应用上的性能评估结果
芯片工艺与测试详情: 如图9,在0.9V工作电压下,对32个通道进行累加的INT8 MAC操作,实测访问时间仅为 12ns。
图9 芯片显微照片与性能总结表
五、 总结与展望
本文通过创新的 位旋转特征输入方案,提出了一种“最平衡”的混合计算内存结构。该结构巧妙地解决了以往混合CIM在数字与模拟计算边界划分上的难题,避免了位并行方案的高硬件开销和位串行方案的精度污染问题。
参考文献
[1] P. Wu et al., “A 22nm 832kb Hybrid-Domain Floating-Point SRAM In-Memory-Compute Macro with 16.2-70.2TFLOPS/W for High-Accuracy AI-Edge Devices,” ISSCC, pp. 126-127, 2023.
[2] A. Guo et al., “A 22nm 64kb Lightning-Like Hybrid Computing-in-Memory Macro with a Compressed Adder Tree and Analog-Storage Quantizers for Transformer and CNNs,” ISSCC, pp. 570-571, 2024.
[3] Y. Yuan et al., “A 28nm 72.12TFLOPS/W Hybrid-Domain Outer-Product Based Floating-Point SRAM Computing-in-Memory Macro with Logarithm Bit-Width Residual ADC,” ISSCC, pp. 576-577, 2024.