【问题标题】:Is reading a "zero" from memory faster than reading other values?从内存中读取“零”是否比读取其他值更快?
【发布时间】:2014-12-28 02:23:43
【问题描述】:

我正在运行一个内存访问实验,其中使用了一个 2D 矩阵,每一行都是一个内存页的大小。该实验包括使用行/列专业读取每个元素,然后还使用行/列专业写入每个元素。被访问的矩阵是在全局范围内声明的,以简化编程要求。

这个问题的重点是,在静态声明测试矩阵的情况下,编译器将值初始化为零,我发现的结果非常有趣。当我首先读取操作时,即

rowMajor_read();
colMajor_read();
rowMajor_write();
colMajor_write(); 

然后我的 colMajor_read 操作很快就完成了。

但是,如果我在阅读之前进行写入操作,我们有:

rowMajor_write();
colMajor_write();
rowMajor_read();
colMajor_read(); 

并且以列为主的读取操作增加了近一个数量级。

我认为这一定与编译器如何优化代码有关。由于每个元素的全局矩阵都为零,编译器是否完全删除了读取操作?还是以某种方式“更容易”从内存中读取一个相同为零的值?

我没有传递任何关于优化的特殊编译器命令,但我确实以这种方式声明了我的函数。

inline void colMajor_read(){
    register int row, col;
    register volatile char temp __attribute__((unused));
    for(col = 0; col < COL_COUNT; col++)
        for(row = 0; row < ROW_COUNT; row++)
            temp = testArray[row][col];
}

因为我遇到了编译器从上述函数中完全删除 temp 变量的问题,因为它从未被使用过。我认为同时拥有volatile__attribute__((unused)) 是多余的,但我仍然将其包括在内。我的印象是没有对 volatile 变量进行任何优化。

有什么想法吗?


我查看了生成的程序集,结果与 colMajor_read 函数相同。 (汇编)非内联版本:http://pastebin.com/C8062fYB

【问题讨论】:

  • 我的猜测是系统缓存和预测。
  • 我同意@Nit。缓存位置很可能是差异的来源。缓存可以轻松地将访问时间提高 10 倍。如果您严重怀疑编译器优化了操作(不太可能跨函数,但并非绝对不可能),请获取 C 函数的汇编器输出以进行检查。
  • 等等,伙计们。我不认为这一切都那么复杂。因为方法是内联的,这意味着所有这些函数都在同一个编译单元中,所以编译器可以做一些很棒的事情。主要是,它可以判断您是否在读写后更改了变量,因此很容易将代码重新解释为temp = 0;,相比之下这将是疯狂的快。你能发布程序集吗?
  • 如果我是你,我会仔细看看它编译成的汇编代码。我建议为此使用优化级别 -Os,因为它会产生最易读的汇编代码。

标签: c memory time


【解决方案1】:

在将值写入矩阵之前和之后检查进程的内存使用情况。例如,如果它存储在 Linux 上的 .bss 部分,则归零页面将映射到具有写时复制语义的单个只读页面。因此,即使您正在读取一堆地址,您也可能会一遍又一遍地读取同一页物理内存。

这个页面http://madalanarayana.wordpress.com/2014/01/22/bss-segment/有很好的解释。

如果是这种情况,然后再次将矩阵归零并重新运行您的读取测试,它应该不再那么快了。

【讨论】:

  • +1 刚要发这个,我发现我迟到了 16 个小时。
猜你喜欢
  • 1970-01-01
  • 2023-03-16
  • 1970-01-01
  • 2020-09-28
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2021-12-29
相关资源
最近更新 更多