【发布时间】:2013-09-30 20:41:45
【问题描述】:
在 Intel x86/x86_64 系统有 3 种类型的内存屏障:lfence、sfence 和 mfence。就它们的使用而言的问题。
对于顺序语义 (SC),对于所有需要 SC 语义的存储单元,使用 MOV [addr], reg + MFENCE 就足够了。但是,您可以编写整个代码,反之亦然:MFENCE + MOV reg, [addr]。显然感觉,如果存储到内存的数量通常少于从中加载的数量,那么使用 write-barrier 的总成本会更低。并且在此基础上,我们必须对内存使用顺序存储,进行了另一个优化 - [LOCK] XCHG,这可能更便宜,因为“MFENCE inside in XCHG”仅适用于使用的内存缓存行XCHG (video where on 0:28:20 said that MFENCE more expensive that XCHG)。
http://www.cl.cam.ac.uk/~pes20/cpp/cpp0xmappings.html
C/C++11 操作 x86 实现
- 加载 Seq_Cst:MOV(从内存中)
- 存储序列 Cst: (LOCK) XCHG // 替代方案:MOV(进入内存),MFENCE
注意:有一个 C/C++11 到 x86 的替代映射,而不是锁定(或隔离) Seq Cst 存储锁定/隔离 Seq Cst 负载:
- 加载 Seq_Cst: LOCK XADD(0) // 替代方法:MFENCE,MOV(从内存中)
- 存储 Seq Cst: MOV(到内存中)
不同之处在于 ARM 和 Power 内存屏障仅与 LLC(Last Level Cache)交互,而 x86 与较低级别的缓存 L1/L2 交互。 在 x86/x86_64 中:
-
lfence在 Core1 上:(CoreX-L1) -> (CoreX-L2) -> L3-> (Core1-L2) -> (Core1-L1) -
sfence在 Core1 上:(Core1-L1) -> (Core1-L2) -> L3-> (CoreX-L2) -> (CoreX-L1)
在 ARM 中:
-
ldr; dmb;: L3-> (Core1-L2) -> (Core1-L1) -
dmb; str; dmb;: (Core1-L1) -> (Core1-L2) -> L3
GCC 4.8.2 编译的 C++11 代码 - x86_64 中的 GDB:
std::atomic<int> a;
int temp = 0;
a.store(temp, std::memory_order_seq_cst);
0x4613e8 <+0x0058> mov 0x38(%rsp),%eax
0x4613ec <+0x005c> mov %eax,0x20(%rsp)
0x4613f0 <+0x0060> mfence
但是为什么在 x86/x86_64 顺序语义 (SC) 上使用 MOV [addr], reg + MFENCE 而不是 MOV [addr], reg + SFENCE,为什么我们需要全栅栏 MFENCE 而不是 SFENCE?
【问题讨论】:
-
我认为商店围栏只会与其他负载同步,而不是与其他商店同步。顺序一致性意味着您想要一个所有 CPU 都观察到的 total 订单,并且存储围栏并不意味着多个存储的排序。
-
@Kerrek 这适用于 ARM,但不适用于 x86,因为如果我们在第一个 CPU 内核上进行 SFENCE,那么在访问之前我们不再需要在另一个 CPU 内核上进行 LFENCE这个记忆细胞。因此,如果所有变量都需要顺序语义(SC),我们会使用 SFENCE,并且我们不需要任何地方都有 LFENCE。还是您的意思是 MFENCE 取消了处理器管道中双向的重新排序(乱序执行)?
-
首先,我想我想说的是,单独的 sfence 无法提供所有 CPU 都观察到的 total 排序...
-
@Kerrek SB 所有 CPU 观察到的顺序语义和总排序是同义词。但是问题是为什么在每次存储操作之后
SFENCE不能提供所有 CPU 都观察到的总排序,即为什么我们需要在每次存储操作之后执行LFENCE包含在MFENCE中(不是在加载之前操作)? -
所以,我认为可能会发生以下情况。假设
X和Y为零。现在:[Thread 1: STORE X = 1, SFENCE]、[Thread 2: STORE Y = 1, SFENCE],在任何其他线程中,执行[LFENCE, LOAD X, LOAD Y]。现在另一个线程可以看到X = 1, Y = 0,另一个线程可以看到X = 0, Y = 1。栅栏只告诉你线程 1 中的 other, early 商店已经生效如果你看到X = 1。但没有与此一致的全球秩序。
标签: c++ multithreading assembly concurrency x86