Mapreduce Vs Spark Vs Storm Vs Drill - 适用于小文件答案

【问题标题】：Mapreduce Vs Spark Vs Storm Vs Drill - For Small filesMapreduce Vs Spark Vs Storm Vs Drill - 适用于小文件
【发布时间】：2015-08-15 18:58:47
【问题描述】：

我知道 spark 进行内存计算并且比 MapReduce 快得多。我想知道 spark 对于记录

我在后端使用 MapReduce 的 hive 中进行数据质量检查。每个文件大约需要 8 分钟，这对我来说非常糟糕。火花会给我更好的表现让我说2-3分钟吗？

我知道我必须做一个基准测试，但在我真正开始使用 spark 之前，我试图了解这里的基础知识。我记得第一次创建 RDD 将是一项开销，因为我必须为每个传入的文件创建一个新的 RDD，这将花费我一点。

我很困惑哪种方法最适合我 - spark、drill、storm 或 Mapreduce 本身？

【问题讨论】：

鉴于您提供的信息，几乎不可能回答这个问题。什么具体数字=“大量文件”？这些文件中有什么类型的数据？您正在执行的需要 8 分钟的确切“数据质量检查”是什么？您正在使用哪些特定硬件 - 1k 个节点或 10 个节点？
@GoBrewers14 ：我每天将收到大约 4000 个文件。该文件包含由管道分隔的数据字段（文本数据）。我执行的数据质量类型是在每一列（文件级别检查）上，以使文件包含有效数据、没有缺失值、空字符串、无效日期格式等。我有大约 100 列，我检查了大约50 列，未来可能会增加。目前我在一个三节点集群中工作，我知道这不是一个好的选择。但我一直在寻找的是获得我能获得的性能的感觉。
@GoBrewers14 ：因为我有大约 10000 条记录，所以增加节点的数量可能并没有真正的帮助，因为数据总是小于我的块大小（如果我错了，请纠正我），我是对的现在使用 mapr hadoop 发行版。如果我说我有一个由 10 个节点组成的集群，它将如何表现得更好？ i 使用 oozie 来安排任务，所以 oozie 的延迟也必须处理

标签： hadoop apache-spark hive apache-storm apache-drill

【解决方案1】：

我只是在大约数百万条记录中探索 Drill vs Spark vs Hive 的性能。在我的情况下，Dill 和 Spark 都快 5-10 倍（我没有对具有大量 RAM 的集群执行任何性能测试，我只是在单个节点上进行了测试）快速计算的原因 - 它们都执行内存计算。

在我的情况下，钻头和火花的性能几乎是可比的。所以，我不能说哪个更好。您需要在最后尝试一下。

在 Drill 上进行测试不会花费太多时间。 Download 最新的演习，install 在您的 mapr hadoop 集群上，添加 hive-storage plugin 并执行 query。

【讨论】：