分布式处理说明答案

【问题标题】：Distributed Processing Clarification分布式处理说明
【发布时间】：2013-12-31 11:12:01
【问题描述】：

我有一些想法，但我不知道可以帮助我实现这一目标的典型解决方案。

我需要一个分布式环境，不仅共享内存，而且共享处理，这意味着所有共享处理器都作为一个大处理器计算我编写的代码。

如果知道我在数据网格和 Hadoop 方面的知识有限，是否可以做到这一点？

数据网格平台（我知道该模型中仅共享内存）或 Hadoop（代码在节点之间共享，但每个节点与其他节点分开处理代码，但处理 HDFS 上的数据子集）。

但我需要一个解决方案，不仅（共享内存或代码作为 hadoop）而且所有机器的处理能力作为一个单一的大处理器和一个单一的大内存？

【问题讨论】：

【解决方案1】：

您是否期望您只是生成线程并在某处执行，中间件会奇迹般地平衡节点之间的负载，将线程从一个节点移动到另一个节点？我想你不会直接找到这个。标记的框架也没有透明的共享内存，这是有充分理由的。

当使用多个节点时，您通常需要它们来提供处理能力，隐藏所有内容并假装您在单台机器上会导致不必要的通信，从而减慢速度。

相反，您始终可以使用这些框架提供的分发 API 来设计您的应用。例如，在 Infinispan 中，查找 Map-Reduce 或 Distributed Executors API。

【讨论】：

【解决方案2】：

我需要一个分布式环境，不仅共享内存，而且共享处理，这意味着所有共享处理器都作为一个大处理器计算我编写的代码。

在单台机器上进行处理不会使您受益。如果处理分布在多台机器上，应用程序将扩展。如果你想看到一个大处理器计算的好处，你可以将大物理机虚拟成多个虚拟节点（使用像VMWare这样的技术）。

但是，跨大型集群中多台物理机的多个 VM 节点的分布式处理最适合分布式应用程序。 Hadoop/Spark 最适合这些类型的应用程序，具体取决于批处理 (Hadoop) 或实时处理需求 (Spark)。

【讨论】：