[A-03] ARMv8/ARMv9-多级Cache架构-CSDN博客

本文链接：https://blog.csdn.net/timyu007/article/details/139883031

ver 0.2

在这里插入图片描述

更多精彩内容，请关注公众号

前言

前面文章我介绍了Cache的基本架构、Cache的详细的结构，有了一定的cache的基础，对cache机制也有了sense。实际上Cache作为CPU架构中存储机制的核心组件和CPU的微架构以及系统的总线架构还是密切相关的，不同的体系下，Cache的类型、使用策略、同步策略也不尽相同。因此，在介绍具体的策略之前，我们还是先花一点时间对不同体系下的Cache类型，多级cache的连接方式等基础性的课题做一下梳理，然后结合具体的体系中Cache对策略展开讨论。本着研究质疑一切，论证一切的精神，我们一起来思考如下几个问题：
(1) 为什么前面cache的相关文章中，有的L2 Cache是多个PE-Core共享的，有的是PE-Core独占的？
(2) 多级cache架构下，为什么Cache Miss的时候，数据要逐级cache传递才能到PE，可不可以跨越传递？
(3) ARMv9的Cache架构和ARMv8是否一致，基于ARMv8的Cortext-A系列的芯片是否Cache架构都是一致的？
(4) 多级Cache是怎么链接在一起的，Cache和外存又是怎么关联到一起的？
(5) CPU读一个数据和写一个数据的时候，不同的策略下，Cache会发生什么事情？

正文

1 多级Cache

前文中我们已经了解到CPU的Cache分为三级L1、L2、L3，实际上随着CPU微架构的迭代，Cache的架构也在不断的向前迭代，所以我们要循着CPU微架构的步伐来介绍多级Cache的升级迭代，我们从一张SOC的架构框图开始多级Cache的架构探索。

1.1 SOC架构

先来简单回顾一下SOC的架构，如图1-1所示，现代芯片已经不是简单的计算单元，特别是在嵌入式领域将多个功能单元(Master)通过一个总线架构连接到一起，既节省物理空间，也降低了功耗，还能够有效提高整个系统的性能。各个Master包括CPU要按照总线架构中的接口(CHI
、ACE5-Lite DVM、AXI5、ACE-Lite)规范进行设计和开发，然后通过Coherent interconnect上的接口(CHI、ACE5-Lite DVM、AXI5、ACE-Lite)做接合，就构成一个完整、具备一定功能的SOC。接合本文讨论的主题，自然我们更加关注的Master包括Memory System 、CPU节点(CPU 内部的Memory System)。
SOC

图1-1 典型SOC架构

1.2 总线架构

通过上面的介绍，我们可以看出SOC上各个Master接合的枢纽就是“Coherent interconnect”，这个聚合的点就是总线架构，ARM系列的芯片采用的就是高级微控制器总线架构(Advanced Microcontroller Bus Architecture)。AMBA是一个协议簇，不是我们讨论的重点，我们更加关注的是ARM系列芯片设计中的具象化的实例，并通过实例来展现ARM芯片的Memory系统是如何串联到一起的。

1.2.1 缓存⼀致性总线-CCI

CCI是ARM架构中用于实现多核处理器之间缓存一致性的关键技术。它通过硬件管理的一致性机制，确保多个处理器核心和其他资源（如GPU、DMA控制器等）在访问共享内存时能够保持数据的一致性，从而提高系统性能和降低功耗。我们看一下手册中描述：

The CCI-550 is a programmable high-bandwidth interconnect that enables hardware-coherent systems.
Hardware-managed coherency can improve system performance and reduce system power by sharing on-chip data. Managing coherency in hardware has the benefits of:
• Reducing external memory accesses.
• Reducing the software overhead and complexity.
• Enabling use of Arm big.LITTLE ™ processing technology with multiple processor clusters.
The CCI-550 is a configurable interconnect that supports connectivity of:
• Up to six AMBA 4 ACE masters, such as the Arm Cortex ® -A57 or Cortex-A72 processors.
• Up to six AMBA 4 ACE-Lite masters, such as the Arm Mali ™ -T880 Graphics Processing Unit (GPU).
• Up to seven AMBA 4 AXI4 slaves, such as memory and system peripherals. This includes support for up to six memory interfaces.

下面来看一个具体CCI实例，如图1-2所示。
CCI-550