【发布时间】:2014-12-28 02:23:43
【问题描述】:
我正在运行一个内存访问实验,其中使用了一个 2D 矩阵,每一行都是一个内存页的大小。该实验包括使用行/列专业读取每个元素,然后还使用行/列专业写入每个元素。被访问的矩阵是在全局范围内声明的,以简化编程要求。
这个问题的重点是,在静态声明测试矩阵的情况下,编译器将值初始化为零,我发现的结果非常有趣。当我首先读取操作时,即
rowMajor_read();
colMajor_read();
rowMajor_write();
colMajor_write();
然后我的 colMajor_read 操作很快就完成了。
但是,如果我在阅读之前进行写入操作,我们有:
rowMajor_write();
colMajor_write();
rowMajor_read();
colMajor_read();
并且以列为主的读取操作增加了近一个数量级。
我认为这一定与编译器如何优化代码有关。由于每个元素的全局矩阵都为零,编译器是否完全删除了读取操作?还是以某种方式“更容易”从内存中读取一个相同为零的值?
我没有传递任何关于优化的特殊编译器命令,但我确实以这种方式声明了我的函数。
inline void colMajor_read(){
register int row, col;
register volatile char temp __attribute__((unused));
for(col = 0; col < COL_COUNT; col++)
for(row = 0; row < ROW_COUNT; row++)
temp = testArray[row][col];
}
因为我遇到了编译器从上述函数中完全删除 temp 变量的问题,因为它从未被使用过。我认为同时拥有volatile 和__attribute__((unused)) 是多余的,但我仍然将其包括在内。我的印象是没有对 volatile 变量进行任何优化。
有什么想法吗?
我查看了生成的程序集,结果与 colMajor_read 函数相同。 (汇编)非内联版本:http://pastebin.com/C8062fYB
【问题讨论】:
-
我的猜测是系统缓存和预测。
-
我同意@Nit。缓存位置很可能是差异的来源。缓存可以轻松地将访问时间提高 10 倍。如果您严重怀疑编译器优化了操作(不太可能跨函数,但并非绝对不可能),请获取 C 函数的汇编器输出以进行检查。
-
等等,伙计们。我不认为这一切都那么复杂。因为方法是内联的,这意味着所有这些函数都在同一个编译单元中,所以编译器可以做一些很棒的事情。主要是,它可以判断您是否在读写后更改了变量,因此很容易将代码重新解释为
temp = 0;,相比之下这将是疯狂的快。你能发布程序集吗? -
如果我是你,我会仔细看看它编译成的汇编代码。我建议为此使用优化级别
-Os,因为它会产生最易读的汇编代码。