从内存中读取“零”是否比读取其他值更快？答案

【问题标题】：Is reading a "zero" from memory faster than reading other values?从内存中读取“零”是否比读取其他值更快？
【发布时间】：2014-12-28 02:23:43
【问题描述】：

我正在运行一个内存访问实验，其中使用了一个 2D 矩阵，每一行都是一个内存页的大小。该实验包括使用行/列专业读取每个元素，然后还使用行/列专业写入每个元素。被访问的矩阵是在全局范围内声明的，以简化编程要求。

这个问题的重点是，在静态声明测试矩阵的情况下，编译器将值初始化为零，我发现的结果非常有趣。当我首先读取操作时，即

rowMajor_read();
colMajor_read();
rowMajor_write();
colMajor_write();

然后我的 colMajor_read 操作很快就完成了。

但是，如果我在阅读之前进行写入操作，我们有：

rowMajor_write();
colMajor_write();
rowMajor_read();
colMajor_read();

并且以列为主的读取操作增加了近一个数量级。

我认为这一定与编译器如何优化代码有关。由于每个元素的全局矩阵都为零，编译器是否完全删除了读取操作？还是以某种方式“更容易”从内存中读取一个相同为零的值？

我没有传递任何关于优化的特殊编译器命令，但我确实以这种方式声明了我的函数。

inline void colMajor_read(){
    register int row, col;
    register volatile char temp __attribute__((unused));
    for(col = 0; col < COL_COUNT; col++)
        for(row = 0; row < ROW_COUNT; row++)
            temp = testArray[row][col];
}

因为我遇到了编译器从上述函数中完全删除 temp 变量的问题，因为它从未被使用过。我认为同时拥有volatile 和__attribute__((unused)) 是多余的，但我仍然将其包括在内。我的印象是没有对 volatile 变量进行任何优化。

有什么想法吗？

我查看了生成的程序集，结果与 colMajor_read 函数相同。（汇编）非内联版本：http://pastebin.com/C8062fYB

【问题讨论】：

我的猜测是系统缓存和预测。
我同意@Nit。缓存位置很可能是差异的来源。缓存可以轻松地将访问时间提高 10 倍。如果您严重怀疑编译器优化了操作（不太可能跨函数，但并非绝对不可能），请获取 C 函数的汇编器输出以进行检查。
等等，伙计们。我不认为这一切都那么复杂。因为方法是内联的，这意味着所有这些函数都在同一个编译单元中，所以编译器可以做一些很棒的事情。主要是，它可以判断您是否在读写后更改了变量，因此很容易将代码重新解释为temp = 0;，相比之下这将是疯狂的快。你能发布程序集吗？
如果我是你，我会仔细看看它编译成的汇编代码。我建议为此使用优化级别 -Os，因为它会产生最易读的汇编代码。

标签： c memory time

【解决方案1】：

在将值写入矩阵之前和之后检查进程的内存使用情况。例如，如果它存储在 Linux 上的 .bss 部分，则归零页面将映射到具有写时复制语义的单个只读页面。因此，即使您正在读取一堆地址，您也可能会一遍又一遍地读取同一页物理内存。

这个页面http://madalanarayana.wordpress.com/2014/01/22/bss-segment/有很好的解释。

如果是这种情况，然后再次将矩阵归零并重新运行您的读取测试，它应该不再那么快了。

【讨论】：

+1 刚要发这个，我发现我迟到了 16 个小时。