哪个更高效？更多内核或更多 CPU答案

【问题标题】：Which is more Efficient? More Cores or More CPUs哪个更高效？更多内核或更多 CPU
【发布时间】：2009-07-04 02:35:16
【问题描述】：

我意识到这更多是硬件问题，但这也与软件非常相关，尤其是在为多线程多核/cpu 环境编程时。

哪个更好，为什么？无论是关于效率、速度、生产力、可用性等方面。

1.) 具有 4 个四核 CPU 的计算机/服务器？

或

2.) 具有 16 个单核 CPU 的计算机/服务器？

请假设所有其他因素（速度、缓存、总线速度、带宽等）都相同。

编辑：

我一般对性能方面感兴趣。至于它是否在某个方面特别好而在另一个方面很糟糕（或不优选），那么我也想知道。

如果必须选择，我最感兴趣的是 I/O 密集型应用程序和计算密集型应用程序哪个更好。

【问题讨论】：

什么更好？ I/O 密集型应用程序？计算绑定的应用程序？数据库服务器？网络服务器？视频流？
主要是性能。但我更喜欢一个更全面的答案，至于如果它在一个方面特别好而在另一个方面很糟糕，那么我也想知道这一点。
如果我必须选择，我最感兴趣的是 I/O 绑定应用程序和计算绑定应用程序哪个更好。
为了什么目的？您打算运行多个独立的应用程序还是一个具有多个线程的应用程序？
@Ben：我的问题更笼统。就此而言，您告诉我：在多 CPU 上运行多个独立应用程序是否比在多核上更好？或相反亦然？多线程呢？

标签： multithreading performance multicore

【解决方案1】：

这不是一个容易回答的问题。毫无疑问，计算机体系结构相当复杂。以下是一些指导方针，但即使这些都是简化。这很大程度上取决于您的应用程序以及您所面临的限制（业务和技术）。

CPU 有多个（通常为 2-3 个）levels of caching on the CPU。一些现代 CPU 在芯片上也有一个内存控制器。这可以大大提高内核之间交换内存的速度。 CPU 之间的内存 I/O 必须在外部总线上进行，这往往会更慢。

AMD/ATI 芯片使用HyperTransport，这是一种点对点协议。

然而，使这一切复杂化的是总线架构。 Intel 的 Core 2 Duo/Quad 系统使用shared bus。把这想象成以太网或有线互联网，只有这么多的带宽可供使用，每个新参与者只是从整体中获得另一份。 Core i7 和更新的 Xeon 使用 QuickPath，这与 HyperTransport 非常相似。

更多的内核将占用更少的空间，使用更少的空间和更少的功率，并且成本更低（除非您使用的是功率非常低的 CPU），无论是在每个内核方面还是在其他硬件（例如主板）的成本方面。

一般来说，一个 CPU 是最便宜的（无论是在硬件还是软件方面）。为此可以使用商品硬件。一旦您使用第二个插槽，您往往不得不使用不同的芯片组、更昂贵的主板和通常更昂贵的 RAM（例如 ECC 全缓冲 RAM），因此您从一个 CPU 变为两个 CPU 会遭受巨大的成本打击。这也是许多大型网站（包括 Flickr、Google 和其他网站）使用数千台商品服务器的原因之一（尽管 Google 的服务器在某种程度上经过定制以包括 9V 电池之类的东西，但原理是一样的）。

您的编辑并没有太大变化。 “性能”是一个高度主观的概念。表现在什么方面？但请记住，如果您的应用程序没有足够的多线程（或多进程）来利用额外的内核，那么您实际上可以通过添加更多内核来降低性能。

I/O 绑定应用程序可能不会更喜欢其中一个。毕竟，它们受 I/O 而非 CPU 的约束。

对于基于计算的应用程序，这取决于计算的性质。如果您正在处理大量浮点运算，则可以通过使用 GPU 卸载计算（例如使用Nvidia CUDA）获得更多好处。您可以从中获得巨大的性能优势。看看GPU client for Folding@Home 的例子。

简而言之，您的问题不适合给出具体答案，因为主题很复杂，而且信息不足。技术架构必须针对特定应用进行设计。

【讨论】：

在不考虑成本和空间的情况下，您能从不同方面详细说明哪个更好吗？如果可以，请考虑对我的帖子进行的修改。
如果您的任务需要内存带宽，如果操作系统支持 NUMA，多插槽系统可能能够为每个任务提供更多带宽。但是，如果任务需要大量同步（即共享大量频繁修改的数据），那么多插槽系统的较高内存延迟可能会受到影响。
Sev，我认为您可能不理解您的问题的简单答案是“视情况而定”，因为需要考虑许多因素，而 cletus 在初步尝试方面做得很好。跨度>
详细说明 JB King 的说明：这些东西不仅复杂，而且总是在不断变化。工程师查看每件最先进的硬件并说“瓶颈在哪里，我如何才能根据我的选择（好、快、便宜）来改进它们？”下一代的答案可能会有所不同。

【解决方案2】：

嗯，关键是所有其他因素不可能真正相等。

多 CPU 的主要问题是两个 CPU 插槽必须相互通信时的延迟和带宽。这必须不断发生，以确保它们的本地缓存不会不同步。这会导致延迟，有时可能会成为代码的瓶颈。（当然，并非总是如此。）

【讨论】：

【解决方案3】：

SPWorley 写道，在更少的 CPU 上使用更多的内核肯定会更快。他的回答现在已经接近三年了，但趋势是存在的，我相信他的回答需要一些澄清。首先是一些历史。

80 年代初，80286 成为第一个可以使用虚拟内存的微处理器。并不是说它以前没有尝试过，而是英特尔将虚拟内存的管理集成到芯片上（片上）而不是片外解决方案。这导致他们的内存管理解决方案比他们的竞争对手快得多，因为所有内存管理（尤其是虚拟地址到物理地址的转换）都被设计为通用处理的一部分。

还记得英特尔的那些笨重的 P2 和 P3 处理器以及 AMD 的早期速龙和毒龙，它们被放置在一边并包含在一个大塑料包装中吗？这样做的原因是能够在处理器芯片旁边安装一个高速缓存芯片，因为当时的制造工艺使得将高速缓存安装到处理器芯片本身上是不可行的。 Voilà 是一种脱模、在处理器上的解决方案。由于时序限制，这些缓存芯片将以 CPU 时钟频率的一小部分（50% 左右）运行。一旦制造工艺赶上来，缓存就被移到芯片上并开始以内部时钟频率运行。

几年前，AMD 将 RAM 内存控制器从北桥（芯片外）移到了处理器（芯片上）上。为什么？因为它通过消除一半的外部寻址布线并消除通过北桥（CPU-wiring-Northbridge-wiring-RAM 变成 CPU-wiring-RAM）使内存操作更高效（更快）。这一变化还使得多个独立的内存控制器成为可能，它们拥有自己的 RAM 集，同时在同一个芯片上运行，从而增加了处理器的内存带宽。

回到澄清上，我们看到了将性能关键功能从主板转移到处理器芯片上的长期趋势。除了上面提到的之外，我们还看到将多个内核集成到同一个裸片上，裸片 L2/裸片 L1 缓存已成为裸片 L3/裸片 L1 和 L2 缓存，现在是裸片 L1， L2 和 L3 缓存。缓存变得越来越大，以至于它们占用的空间比内核本身还多。

所以，总结一下：任何时候你需要停止工作，事情都会显着减慢。答案是：确保尽可能地留在芯片上，并简化任何需要离开芯片的设计。

【讨论】：

【解决方案4】：

这在一定程度上取决于架构；但是，由于通信减少（即不必死机也不必走很远，这是一个因素）和共享资源，四核 CPU 与 4 个物理上独立的 CPU 几乎相同（或更好）。

【讨论】：

所以你的意思是更多的核心肯定比更多的单核 cpu 更好？我希望有一些基准可以证明这一点。
但是，单个处理器可能在某些内核之间共享缓存。如果内核在内存的不同部分工作，处理器将花费大部分时间使缓存行无效并通过总线从主内存中获取数据。