【发布时间】:2019-04-16 05:36:24
【问题描述】:
我想看看虚假分享的效果。为此,我尝试设计一个小型实验,但得到了意想不到的结果。
我有一个包含 100 m 个整数的数组。将其视为 m x n 矩阵。一个线程更改奇数索引行,其他线程更改偶数索引行。
实验A:列数为16,所以每行64字节,正好是我的cacheline大小。由于每个线程一次只处理 1 个缓存行,因此不应存在错误共享。因此,我预计会有大约 100% 的加速。
实验B:列数为8,每个线程一次改变32个字节,是cacheline的一半。例如,如果线程 1 处理第 33 行,则应从线程 0 传输数据,因为线程 1 已经处理了同一高速缓存行中的第 32 行。 (反之亦然,顺序无关紧要)。由于这种通信,加速应该很低。
#include <iostream>
#include <omp.h>
using namespace std;
int main(int argc, char** argv) {
if(argc != 3) {
cout << "Usage: " << argv[0] << " <iteration> <col_count>" << endl;
return 1;
}
int thread_count = omp_get_max_threads();
int iteration = atoi(argv[1]);
int col_count = atoi(argv[2]);
int arr_size = 100000000;
int* A = (int*) aligned_alloc(16 * sizeof(int), arr_size * sizeof(int));
int row_count = arr_size / col_count;
int row_count_per_thread = row_count / thread_count;
#pragma omp parallel
{
int thread_id = omp_get_thread_num();
long long total = 1ll * iteration * row_count_per_thread * col_count;
printf("%lld\n", total);
for(int t = 0; t < iteration; t++) {
for(int i = 0; i < row_count_per_thread; i++) {
int start = (i * thread_count + thread_id) * col_count;
for(int j = start; j < start + col_count; j++) {
if(A[j] % 2 == 0)
A[j] += 3;
else
A[j] += 1;
}
}
}
}
return 0;
}
我通过以下方式以不同的配置运行此代码:
time taskset -c 0-1 ./run 100 16
这是 100 次迭代的结果:
Thread Column Optimization Time (secs)
_______________________________________________________
1 16 O3 7.6
1 8 O3 7.7
2 16 O3 7.7
2 8 O3 7.7
1 16 O0 35.9
1 8 O0 34.3
2 16 O0 19.3
2 8 O0 18.2
如您所见,虽然 O3 优化提供了最好的结果,但它们很奇怪,因为增加线程数并没有提高任何速度。对我来说,O0 优化结果更容易解释。
真正的问题:看看最后两行。对于这两种情况,我得到了几乎 %100 的加速,但是我预计实验 B 的执行时间应该要长得多,因为它存在错误共享问题。我的实验或理解有什么问题?
我用
g++ -std=c++11 -Wall -fopenmp -O0 -o run -Iinc $(SOURCE)
和
g++ -std=c++11 -Wall -fopenmp -O3 -o run -Iinc $(SOURCE)
如果我的问题不清楚或需要更多详细信息,请告诉我。
更新:规格:
MemTotal: 8080796 kB
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 8
On-line CPU(s) list: 0-7
Thread(s) per core: 2
Core(s) per socket: 4
Socket(s): 1
NUMA node(s): 1
Vendor ID: GenuineIntel
CPU family: 6
Model: 71
Model name: Intel(R) Core(TM) i7-5700HQ CPU @ 2.70GHz
Stepping: 1
CPU MHz: 2622.241
CPU max MHz: 3500,0000
CPU min MHz: 800,0000
BogoMIPS: 5387.47
Virtualization: VT-x
L1d cache: 32K
L1i cache: 32K
L2 cache: 256K
L3 cache: 6144K
NUMA node0 CPU(s): 0-7
更新 2: 我尝试了不同的 iteration_count 和 arr_size 参数,以便数组适合 L2、L1 缓存,同时使元素更改的总数保持不变。但结果还是一样。
谢谢。
【问题讨论】:
-
为什么在禁用优化的情况下进行测试?这意味着有很多开销掩盖了错误的共享延迟......
-
请重复优化 - 任何没有优化的性能讨论都是没有意义的。像这样梳理 800 MB 的数据永远不会超过 0.1 秒。也请将您的代码升级到minimal reproducible example 以提供实用的答案。
-
@MaxLanghof 感谢您的回复。我编辑了这个问题,但是当我通过 O3 优化增加线程数时,我没有得到任何加速。你能检查一下编辑过的问题吗,我添加了一个更简单的代码版本。
-
你看过this video吗?这似乎是一个精确的代码副本。答案在视频中。
-
@Ripi2 在你提到它之后我已经检查了视频。谢谢,我认为这是一个非常好的资源,我从视频中学到了很多东西。虽然代码不一样,但概念是相似的。但是,我在这里所经历的与视频中应该发生的相反。我在问为什么会这样。
标签: c++ multithreading caching memory openmp