首先,主存访问非常昂贵。目前,2GHz CPU(最慢的一次)每秒有 2G 滴答声(周期)。 CPU(现在的虚拟内核)可以在每次滴答时从其寄存器中获取一个值。由于虚拟内核由多个处理单元(ALU - 算术逻辑单元、FPU 等)组成,因此它实际上可以在可能的情况下并行处理某些指令。
访问主内存大约需要 70ns 到 100ns(DDR4 稍微快一些)。这一次基本上是查找 L1、L2 和 L3 缓存,然后命中内存(向内存控制器发送命令,将其发送到内存库),等待响应并完成。
100ns 表示大约 200 个滴答声。所以基本上如果一个程序总是错过每个内存访问的缓存,CPU 将花费大约 99.5% 的时间(如果它只读取内存)空闲等待内存。
为了加快速度,有 L1、L2、L3 缓存。他们使用直接放置在芯片上的内存,并使用不同类型的晶体管电路来存储给定的位。这比主内存占用更多空间、更多能量并且成本更高,因为 CPU 通常是使用更先进的技术生产的,并且 L1、L2、L3 内存中的生产故障有可能使 CPU 变得毫无价值(缺陷),因此大型 L1、L2、L3 缓存会增加错误率,从而降低良率,从而直接降低 ROI。因此,在可用缓存大小方面存在巨大的折衷。
(目前创建更多的 L1、L2、L3 高速缓存,以便能够停用某些部分,以减少实际生产缺陷是高速缓存内存区域导致整个 CPU 缺陷的机会)。
给出一个计时思路(来源:costs to access caches and memory)
- 一级缓存:1ns 到 2ns(2-4 个周期)
- 二级缓存:3ns 到 5ns(6-10 个周期)
- L3 缓存:12ns 到 20ns(24-40 个周期)
- RAM:60ns(120 个周期)
由于我们混合了不同的 CPU 类型,这些只是估计值,但可以很好地了解在获取内存值时的实际情况,并且我们可能会在某些缓存层中遇到命中或未命中。
所以缓存基本上可以大大加快内存访问速度(60ns vs. 1ns)。
获取一个值,将其存储在缓存中以便有机会重新读取它对于经常访问的变量很有好处,但对于内存复制操作,它仍然会很慢,因为一个人只是读取一个值,将值写入某个地方,并且永远不会再次读取该值...没有缓存命中,速度极慢(此外,由于我们执行乱序,因此可能并行发生)。
此内存副本非常重要,因此有不同的方法可以加快速度。在早期,内存通常能够在 CPU 之外复制内存。它由内存控制器直接处理,因此内存复制操作不会污染缓存。
但除了普通的内存副本之外,其他串行内存访问也很常见。一个例子是分析一系列信息。拥有一个整数数组并计算总和、平均值、平均值或更简单地找到某个值(过滤/搜索)是另一类非常重要的算法,每次都在任何通用 CPU 上运行。
因此,通过分析内存访问模式,很明显数据是按顺序读取的。如果程序读取
索引 i 处的值,程序也将读取值 i+1。这个概率略高于同一个程序也会读取值 i+2 的概率,以此类推。
因此,给定一个内存地址,提前读取并获取附加值是(现在仍然是)一个好主意。这就是为什么有升压模式的原因。
boost 模式下的内存访问是指发送一个地址并顺序发送多个值。每个额外的值发送只需要大约额外的 10ns(甚至更低)。
另一个问题是地址。发送地址需要时间。为了寻址大部分内存,必须发送大地址。在早期,这意味着地址总线不够大,无法在单个周期(tick)内发送地址,并且需要一个以上的周期来发送地址,从而增加了更多延迟。
例如,64 字节的高速缓存行意味着内存被划分为大小为 64 字节的不同(非重叠)内存块。 64bytes 表示每个块的起始地址具有最低六个地址位,始终为零。因此,对于任意数量的地址总线宽度,不需要每次发送这六个零位将地址空间增加 64 倍(欢迎效应)。
缓存线解决的另一个问题(除了提前读取和保存/释放地址总线上的六位)是缓存的组织方式。例如,如果缓存将被划分为 8 字节(64 位)块(单元),则需要存储内存单元的地址,该缓存单元与其一起保存值。如果地址也是 64 位,这意味着该地址消耗了一半的缓存大小,从而导致 100% 的开销。
由于缓存线是 64 字节,而 CPU 可能使用 64 位 - 6 位 = 58 位(无需将零位存储得太正确)意味着我们可以缓存 64 字节或 512 位,但开销为 58 位(11% 的开销)。实际上存储的地址比这还要小,但是有状态信息(比如缓存行是否有效和准确,脏并且需要在内存中写回等)。
另一个方面是我们有集合关联缓存。并非每个缓存单元都能够存储某个地址,而只能存储其中的一个子集。这使得必要的存储地址位更小,允许并行访问缓存(每个子集可以访问一次,但独立于其他子集)。
尤其是在不同虚拟内核之间同步缓存/内存访问时,每个内核独立的多个处理单元以及最后一个主板上的多个处理器(其中包含多达 48 个处理器甚至更多的主板) .
这基本上就是我们为什么有缓存行的当前想法。提前读取的好处非常高,从缓存行中读取单个字节并且不再读取其余字节的最坏情况非常小,因为概率非常小。
缓存线的大小 (64) 是较大缓存线之间的明智选择折衷,这使得它的最后一个字节也不太可能在不久的将来被读取,获取从内存中完成缓存行(并将其写回)以及缓存组织的开销以及缓存和内存访问的并行化。