【发布时间】:2016-04-24 17:02:15
【问题描述】:
在最后几天,我观察到我无法解释的新工作站的行为。对这个问题进行一些研究,INTEL Haswell architecture 以及当前的 Skylake Generation 中可能存在错误。
在写可能的错误之前,让我先概述一下使用的硬件、程序代码和问题本身。
工作站硬件规格
- INTEL Xeon E5-2680 V3 2500MHz 30M Cache 12Core
- 美超微 SC745 BTQ -R1K28B-SQ
- 4 x 32GB ECC 已注册 DDR4-2133 内存
- 英特尔 SSD 730 系列 480 GB
- NVIDIA Tesla C2075
- NVIDIA 泰坦
有问题的操作系统和程序代码
我目前正在运行 Ubuntu 15.04 64 位桌面版本,已安装最新更新和内核内容。除了使用这台机器开发 CUDA 内核和其他东西,我最近测试了一个纯 C 程序。
该程序正在对相当大的输入数据集进行某种修改ART。因此代码执行了一些 FFT 并消耗了相当长的时间来完成计算。我目前无法发布/链接到任何来源
代码,因为这是正在进行的研究,无法发表。如果您不熟悉ART,只需简单解释一下它的作用。 ART 是一种用于重建从计算机断层扫描机接收的数据以获得
用于诊断的可见图像。因此,我们的代码版本重构了大小为 2048x2048x512 的数据集。到目前为止,没有什么特别的,也没有涉及火箭科学。经过几个小时的调试和修复错误,代码已经过测试
根据参考结果,我们可以确认代码按预期工作。代码使用的唯一库是标准的 math.h 。没有特殊的编译参数,没有可能带来额外问题的额外库内容。
观察问题
代码使用一种技术来实现 ART,以最小化重建数据所需的投影。所以让我们假设我们可以重建一个包含 25 个投影的数据切片。代码以 12 个内核上完全相同的输入数据开始。请注意, 实现不是基于多线程,目前启动了12个程序实例。我知道这不是最好的方法,强烈建议进行适当的线程管理,这已经在改进列表中:)
因此,当我们至少运行程序的两个实例(每个实例都在单独的数据切片上工作)时,某些预测的结果是随机错误的。为了让您了解结果,请参见表 1。请注意,输入数据始终相同。
只运行一个涉及CPU一个核心的代码实例,结果都是正确的。即使执行一些涉及一个 CPU 内核的运行,结果仍然正确。仅涉及至少两个或更多内核会生成结果模式,如表 1 所示。
识别问题
好的,这花了好几个小时才弄清楚到底出了什么问题。所以我们检查了整个代码,大部分问题都是从一个小的实现错误开始的。但是,好吧,没有(当然我们不能证明没有错误也不能保证)。为了验证我们的代码,我们使用了两台不同的机器:
- (机器 1)英特尔酷睿 i5 四核(2009 年末型号)
- (Machine2) 在 Intel XEON 6core SandyBridge CPU 上运行的虚拟机
令人惊讶的是,Machine1 和 Machine2 都总是产生正确的结果。即使使用所有 CPU 内核,结果仍然正确。在每台机器上运行超过 50 次,甚至没有一个错误的结果。代码在每台目标机器上编译,没有优化选项或任何特定的编译器设置。 因此,阅读新闻导致以下发现:
- ArsTechnika - Skylake CPU freezes during complex workload
- PcWorld - how to test your PC for the skylake bug
- Intel Community - Simple instruction for freezing a Skylake Processor
所以Prime95 和Mersenne Community 的人们似乎是第一个发现和识别这个nasty bug 的人。引用的贴子和新闻支持了这种怀疑,即问题只存在于工作量大的情况下。根据我的观察,我可以确认这种行为。
问题
- 您/社区是否在 Haswell CPU 和 Skylake CPU 上观察到此问题?
- gcc 会按照默认的 AVX(2) 优化(只要可能),关闭此优化会有所帮助吗?
- 如何编译我的代码并确保关闭可能受此错误影响的任何优化?到目前为止,我只阅读了有关在 Haswell / Skylake 架构中使用 AVX2 命令集的问题。
解决方案?
好的,我可以关闭所有 AVX2 优化。但这会减慢我的代码速度。英特尔可能会向主板制造商发布 BIOS 更新,以修改英特尔 CPU 中的微码。由于这似乎是一个硬件错误,即使通过更新 CPU 微码,这也可能会变得有趣。我认为这可能是一个有效的选择,因为 Intel CPU 使用一些由 Microcode 控制的 RISC 到 CISC 转换机制。
编辑:Techreport.com - Errata prompts Intel to disable TSX in Haswell, early Broadwell CPUs 将检查我 CPU 中的微码版本。
EDIT2:截至目前(19.01.2016 15:39 CET)Memtest86+ v4.20 正在运行并测试内存。由于这似乎需要相当长的时间才能完成,我将在明天更新帖子并提供结果。
EDIT3:截至目前(21.01.2016 09:35 CET)Memtest86+ 完成了两次运行并通过了。甚至没有一个内存错误。将 CPU 的微码从 revision=0x2d 更新为 revision=0x36。目前正在准备这里发布的源代码。错误结果的问题在于。由于我不是相关代码的作者,因此我必须仔细检查不要发布我不允许发布的代码。我也在使用工作站并对其进行维护。
EDIT4: (22.01.2016) (12:15 CET) 这是用于编译源代码的 Makefile:
# VARIABLES ==================================================================
CC = gcc
CFLAGS = --std=c99 -Wall
#LDFLAGS = -lm -lgomp -fast -s -m64
LDFLAGS = -lm
OBJ = ArtReconstruction2Min.o
# RULES AND DEPENDENCIES ====================================================
# linking all object files
all: $(OBJ)
$(CC) -o ART2Min $(OBJ) $(LDFLAGS)
# every o-file depends on the corresonding c-file, -g Option bedeutet Debugging Informationene setzen
%.o: %.c
$(CC) -c -g $< $(CFLAGS)
# MAKE CLEAN =================================================================
clean:
rm -f *.o
rm -f main
和gcc -v 输出:
gcc -v
Using built-in specs.
COLLECT_GCC=gcc
COLLECT_LTO_WRAPPER=/usr/lib/gcc/x86_64-linux-gnu/4.9/lto-wrapper
Target: x86_64-linux-gnu
Configured with: ../src/configure -v --with-pkgversion='Ubuntu 4.9.2-10ubuntu13' --with-bugurl=file:///usr/share/doc/gcc-4.9/README.Bugs --enable-languages=c,c++,java,go,d,fortran,objc,obj-c++ --prefix=/usr --program-suffix=-4.9 --enable-shared --enable-linker-build-id --libexecdir=/usr/lib --without-included-gettext --enable-threads=posix --with-gxx-include-dir=/usr/include/c++/4.9 --libdir=/usr/lib --enable-nls --with-sysroot=/ --enable-clocale=gnu --enable-libstdcxx-debug --enable-libstdcxx-time=yes --enable-gnu-unique-object --disable-vtable-verify --enable-plugin --with-system-zlib --disable-browser-plugin --enable-java-awt=gtk --enable-gtk-cairo --with-java-home=/usr/lib/jvm/java-1.5.0-gcj-4.9-amd64/jre --enable-java-home --with-jvm-root-dir=/usr/lib/jvm/java-1.5.0-gcj-4.9-amd64 --with-jvm-jar-dir=/usr/lib/jvm-exports/java-1.5.0-gcj-4.9-amd64 --with-arch-directory=amd64 --with-ecj-jar=/usr/share/java/eclipse-ecj.jar --enable-objc-gc --enable-multiarch --disable-werror --with-arch-32=i686 --with-abi=m64 --with-multilib-list=m32,m64,mx32 --enable-multilib --with-tune=generic --enable-checking=release --build=x86_64-linux-gnu --host=x86_64-linux-gnu --target=x86_64-linux-gnu
Thread model: posix
gcc version 4.9.2 (Ubuntu 4.9.2-10ubuntu13)
【问题讨论】:
-
为什么投反对票?这是一个很好的、有效的问题!我将尝试在等效设置中重现。
-
@specializt 很好,因为他的测试表明,12 个相同的内核中有 11 个没有做同样的事情,尽管他们应该做的事情给了这个设置一些真正的意义。在计算时出现零星的失败是一项艰巨的任务,要提出这样一个“愚蠢”的事情要做,以揭示一些基本的假设(代码在任何内核上的任何负载下对于相同输入的行为都是相同的)是错误的.
-
他可能会或可能不会通过无意义的冗余操作发现硬件错误(非常不可能)或硬件缺陷(非常可能)这一事实并没有使该方法变得更聪明。他目前所经历的被称为“运气”——他也会在运行数天的 IBT 或 prime95 等 CPU 密集型测试工具上发现相同的问题。 @semm0 :下载并运行 IBT - 如果您的机器锁定,您就知道问题与散热有关,甚至是硬件缺陷 - 在这两种情况下,零星的计算错误都很常见。
-
“无特殊编译参数”。你怎么知道?你有什么编译选项?你说“正如 gcc 所做的默认 AVX(2) 优化”。不,不是的。它仅在 64 位模式下默认使用 SSE2。您一定添加了一些选项。您问“关闭此优化会有所帮助吗?”你为什么不测试一下?再次说明您的编译选项以及您的编译器和版本。
-
您的代码是否使用任何全局状态变量?如果是这样,那么即使多个线程运行相同的函数并且如果它们写入全局状态变量,这也可能会给出错误的结果。
标签: intel cpu-architecture processor avx2