为什么在 C 中遍历这样的数组效率低下？答案

【问题标题】：Why iterating through an array like this is inefficient in C?为什么在 C 中遍历这样的数组效率低下？
【发布时间】：2021-04-09 12:30:43
【问题描述】：

我在读一本书，里面有这一段：

C 中的数组可以看作是一块连续的内存。更多的准确地说，数组的最后一维是连续的部分。我们将此称为行主要顺序。了解这一点以及一个事实缓存故障在访问时将完整的缓存行加载到缓存中未缓存的数据以防止后续缓存故障，我们可以看到为什么使用 array[0][0] 访问维度为 10000x10000 的数组会可能在缓存中加载 array[0][1]，但访问 array[1][0] 正确 after 会产生第二个缓存故障，因为它是 sizeof(type)*10000 bytes 距离 array[0][0]，因此当然不在同一个缓存行上。这就是为什么像这样迭代效率低下：

#define ARRLEN 10000

int array[ARRLEN][ARRLEN];
size_t i, j;

for (i = 0; i < ARRLEN; ++i)
{
    for(j = 0; j < ARRLEN; ++j)
    {
        array[j][i] = 0;
    }
}

您能否向我解释一下他们在本段中试图解释的内容以及他们所说的“缓存错误”是什么？

【问题讨论】：

他们指的是CPU cache
我认为本段要表达的主要内容是，当您像这样迭代数组时，每次迭代都会移动 10000 个数字，而不是使用 array[i][j] 时每次移动 1 个数字。如果您使用array[i][j]，它将存储数组的一部分以使未来的迭代更快，但是当您每次移动 10000 个数字时，它无法在不浪费大量资源的情况下存储足够的数据。
当您访问 array[0][0] 时，下一个元素 (array[0][0…n]) 可能会被预先缓存，并假设接下来可能会访问它们。但是，如果访问跳转到 array[1][0]，则该假设是错误的，缓存的 array[0][1] 和连续元素是不必要的，并被丢弃以支持 array[1][0…n]。
这不仅对缓存不利。现代 CPU 也进行自动预取，因此连续访问甚至超出单个高速缓存行的大小也很重要。单位步幅也更有可能是矢量化的，而不需要分散/收集指令，这可能不可用或很慢。
这能回答你的问题吗？ What is a cache hit and a cache miss? Why would context-switching cause cache miss? 这个问题是由于使用了不寻常的术语“缓存故障”引起的，应该是“缓存未命中”。作者可能将其与“页面错误”混淆了，不幸的是，这也是某种缓存未命中。

标签： arrays c iteration row-major-order

【解决方案1】：

将数组想象成书中的页面。如果每页包含 1024 个字符，那么声明为 a[100][1024] 的数组就像一本 100 页的书。通过阅读每一页来阅读本书的效率更高。也就是说，您按照 a[0][0]、a[0][1]、...、a[0][1023]、a[1][0] 的顺序进行迭代。即，您阅读整页，然后翻页。如果您遍历最左侧的索引，就像从每一页中读取一个字符，在您读取一个字符后翻页，然后当您读到书的末尾时返回第 1 页以读取第二个字符。翻页是缓存故障。

【讨论】：

这是一个很好的类比。
你能告诉我他们在说什么吗？ ===> 理解这一点以及缓存故障会在访问未缓存数据时将完整的缓存行加载到缓存中以防止后续缓存故障这一事实。
缓存故障是内核意识到没有将书打开到正确的页面，因此它将该页面放入缓存中进行读取。
@Neeraj-Kumar-Coder CPU 缓存线通常为 64 字节。从内存中访问单个 char 或 int 意味着将整个 64 字节的内存块读取到缓存中，并可能将其写回内存。反复这样做真的会损害性能。缓存友好的代码可以产生巨大的影响。
Re“……内核实现……”：缓存操作由硬件执行，而不是操作系统内核。