【发布时间】:2021-07-21 14:44:19
【问题描述】:
我在大步访问时读到了这一点
for (int i = 0; i < aSize; i++) a[i] *= 3;
for (int i = 0; i < aSize; i += 16) a[i] *= 3;
两个循环的执行方式应该相似,因为内存访问的顺序高于乘法。
我正在使用谷歌基准测试,在测试类似的缓存行为时,我得到了我不理解的结果。
template <class IntegerType>
void BM_FillArray(benchmark::State& state) {
for (auto _ : state)
{
IntegerType a[15360 * 1024 * 2]; // Reserve array that doesn't fit in L3
for (size_t i = 0; i < sizeof(a) / sizeof(IntegerType); ++i)
benchmark::DoNotOptimize(a[i] = 0); // I have compiler optimizations disabled anyway
}
}
BENCHMARK_TEMPLATE(BM_FillArray, int32_t);
BENCHMARK_TEMPLATE(BM_FillArray, int8_t);
Run on (12 X 3592 MHz CPU s)
CPU Caches:
L1 Data 32 KiB (x6)
L1 Instruction 32 KiB (x6)
L2 Unified 256 KiB (x6)
L3 Unified 15360 KiB (x1)
---------------------------------------------------------------
Benchmark Time CPU Iterations
---------------------------------------------------------------
BM_FillArray<int32_t> 196577075 ns 156250000 ns 4
BM_FillArray<int8_t> 205476725 ns 160156250 ns 4
我希望访问字节数组比整数数组更快,因为缓存行中可以容纳更多元素,但事实并非如此。
以下是启用优化后的结果:
BM_FillArray<int32_t> 47279657 ns 47991071 ns 14
BM_FillArray<int8_t> 49374830 ns 50000000 ns 10
任何人都可以澄清一下吗?谢谢:)
更新 1:
我已经阅读了旧文章“程序员应该了解的内存”,现在一切都更加清楚了。但是,我尝试了以下基准:
template <int32_t CacheLineSize>
void BM_ReadArraySeqCacheLine(benchmark::State& state) {
struct CacheLine
{
int8_t a[CacheLineSize];
};
vector<CacheLine> cl;
int32_t workingSetSize = state.range(0);
int32_t arraySize = workingSetSize / sizeof(CacheLine);
cl.resize(arraySize);
const int32_t iterations = 1536 * 1024;
for (auto _ : state)
{
srand(time(NULL));
int8_t res = 0;
int32_t i = 0;
while (i++ < iterations)
{
//size_t idx = i% arraySize;
int idx = (rand() / float(RAND_MAX)) * arraySize;
benchmark::DoNotOptimize(res += cl[idx].a[0]);
}
}
}
BENCHMARK_TEMPLATE(BM_ReadArraySeqCacheLine, 1)
->Arg(32 * 1024) // L1 Data 32 KiB(x6)
->Arg(256 * 1024) // L2 Unified 256 KiB(x6)
->Arg(15360 * 1024);// L3 Unified 15360 KiB(x1)
BENCHMARK_TEMPLATE(BM_ReadArraySeqCacheLine, 64)
->Arg(32 * 1024) // L1 Data 32 KiB(x6)
->Arg(256 * 1024) // L2 Unified 256 KiB(x6)
->Arg(15360 * 1024);// L3 Unified 15360 KiB(x1)
BENCHMARK_TEMPLATE(BM_ReadArraySeqCacheLine, 128)
->Arg(32 * 1024) // L1 Data 32 KiB(x6)
->Arg(256 * 1024) // L2 Unified 256 KiB(x6)
->Arg(15360 * 1024);// L3 Unified 15360 KiB(x1)
当工作大小不适合缓存时,我预计随机访问的性能会更差。然而,这些是结果:
BM_ReadArraySeqCacheLine<1>/32768 39936129 ns 38690476 ns 21
BM_ReadArraySeqCacheLine<1>/262144 40822781 ns 39062500 ns 16
BM_ReadArraySeqCacheLine<1>/15728640 58144300 ns 57812500 ns 10
BM_ReadArraySeqCacheLine<64>/32768 32786576 ns 33088235 ns 17
BM_ReadArraySeqCacheLine<64>/262144 32066729 ns 31994048 ns 21
BM_ReadArraySeqCacheLine<64>/15728640 50734420 ns 50000000 ns 10
BM_ReadArraySeqCacheLine<128>/32768 29122832 ns 28782895 ns 19
BM_ReadArraySeqCacheLine<128>/262144 31991964 ns 31875000 ns 25
BM_ReadArraySeqCacheLine<128>/15728640 68437327 ns 68181818 ns 11
我错过了什么?
更新 2:
我现在使用您建议的 (linear_congruential_engine) 来生成随机数,而且我只使用静态数组,但结果现在让我更加困惑。
这是更新后的代码:
template <int32_t WorkingSetSize, int32_t ElementSize>
void BM_ReadArrayRndCacheLine(benchmark::State& state) {
struct Element
{
int8_t data[ElementSize];
};
constexpr int32_t ArraySize = WorkingSetSize / sizeof(ElementSize);
Element a[ArraySize];
constexpr int32_t iterations = 1536 * 1024;
linear_congruential_engine<size_t, ArraySize/10, ArraySize/10, ArraySize> lcg; // I've tried with many params...
for (auto _ : state)
{
int8_t res = 0;
int32_t i = 0;
while (i++ < iterations)
{
size_t idx = lcg();
benchmark::DoNotOptimize(res += a[idx].data[0]);
}
}
}
// L1 Data 32 KiB(x6)
// L2 Unified 256 KiB(x6)
// L3 Unified 15360 KiB(x1)
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 32 * 1024, 1);
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 32 * 1024, 64);
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 32 * 1024, 128);
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 256 * 1024, 1);
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 256 * 1024, 64);
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 256 * 1024, 128);
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 15360 * 1024, 1);
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 15360 * 1024, 64);
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 15360 * 1024, 128);
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 15360 * 1024 * 4, 1);
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 15360 * 1024 * 4, 64);
BENCHMARK_TEMPLATE(BM_ReadArrayRndCacheLine, 15360 * 1024 * 4, 128);
以下是结果(已启用优化):
// First template parameter is working set size.
// Second template parameter is array elemeent size.
BM_ReadArrayRndCacheLine<32 * 1024, 1> 2833786 ns 2823795 ns 249
BM_ReadArrayRndCacheLine<32 * 1024, 64> 2960200 ns 2979343 ns 236
BM_ReadArrayRndCacheLine<32 * 1024, 128> 2896079 ns 2910539 ns 204
BM_ReadArrayRndCacheLine<256 * 1024, 1> 3114670 ns 3111758 ns 236
BM_ReadArrayRndCacheLine<256 * 1024, 64> 3629689 ns 3643135 ns 193
BM_ReadArrayRndCacheLine<256 * 1024, 128> 3213500 ns 3187189 ns 201
BM_ReadArrayRndCacheLine<15360 * 1024, 1> 5782703 ns 5729167 ns 90
BM_ReadArrayRndCacheLine<15360 * 1024, 64> 5958600 ns 6009615 ns 130
BM_ReadArrayRndCacheLine<15360 * 1024, 128> 5958221 ns 5998884 ns 112
BM_ReadArrayRndCacheLine<15360 * 1024 * 4, 1> 6143701 ns 6076389 ns 90
BM_ReadArrayRndCacheLine<15360 * 1024 * 4, 64> 5800649 ns 5902778 ns 90
BM_ReadArrayRndCacheLine<15360 * 1024 * 4, 128> 5826414 ns 5729167 ns 90
对于 (L1d
即使在尝试从主内存(workingSet > L3)中获取数据时,我的性能也没有大幅下降。你提到最新的架构可以保持高达每时钟 8 字节的带宽,但我知道他们必须复制一个保持缓存行,并且如果没有使用可预测的线性模式预取,延迟应该在我的测试中更加明显......为什么不是这样吗?
我怀疑页面错误和 tlb 可能也有关系。
(我已经下载了 vtune 分析器来尝试更好地理解所有这些东西,但它挂在我的机器上,我一直在等待支持)
非常感谢您的帮助 Peter Cordes :)
我只是一名游戏程序员,试图向我的队友展示在我们的代码中使用某些整数类型是否会(或不会)影响我们的游戏性能。例如,我们是否应该担心使用快速类型(例如 int_fast16_t)或在变量中使用尽可能少的字节以便更好地打包(例如 int8_t)。
【问题讨论】:
-
无论如何我都禁用了编译器优化 - 那么一切都会变得如此缓慢,以至于 RAM 可以轻松跟上 CPU,即使你有一个多核 Xeon(其中单个-核心内存带宽低于四核台式机)。但是,如果那是一个六核英特尔“客户端”芯片(我怀疑不是 AMD,因为它有 6 个内核共享一个 L3),那么可用带宽比每 ~6 个时钟周期将一个字节或一个双字归零所需的带宽要多得多。 (Why is Skylake so much better than Broadwell-E for single-threaded memory throughput?)
-
200 个停顿周期是延迟,而不是吞吐量。硬件预取和内存级并行性隐藏了这一点。 lighterra.com/papers/modernmicroprocessors 有一个关于内存的部分。
-
在更现代的 CPU(如桌面 Skylake)上,理论最大值为 34GB/s,单个内核几乎可以使用它,在 4GHz 时每个内核时钟大约 8 字节。在 E5-1650 v4 (6-core Broadwell-EP, 15MiB of L3) 上,它甚至更高(在所有 4 个通道上约为 71GiB/s),但每核带宽可能会被限制为远低于最大聚合。 (但仍然超过 10GiB/s 的读取 和 在 memcpy 中写入,请参阅我的第一条评论中的链接,对于标量存储来说应该足够了。)单核上的普通代码并且速度要快得多由于硬件预取,超过 4B / 200 个周期。
-
re: 用基准更新:
rand()很慢;您在rand()和 L1d 和 L2 大小的划分吞吐量上遇到瓶颈,L3 缓存未命中速度很慢,以至于 OoO exec 仅部分隐藏了它。 (通过与其他计算重叠来尽可能地隐藏缓存未命中延迟是乱序执行的主要目标/好处之一。您的基准测试允许机器可以管理尽可能多的内存级并行性,如果它甚至需要的话要跟上较慢的rand()。)另外,不要在定时函数中srand();做一次或根本不做。 -
快速的 xorshift+ 可能或避免除法的 LCG 可能工作得很好;您不需要高质量的随机性来击败硬件预取。您可能循环了足够多的时间,即使有页面错误开销,在定时函数内分配向量也是可以的。正常的
std::vector不能在不污染页面的情况下有效地进行零初始化,因此您可能看不到任何延迟分配效果,例如将多个虚拟页面映射到 TLB 未命中但 L1d 命中的同一个零物理页面。
标签: caching benchmarking cpu-cache stride memory-bandwidth