【问题标题】:Mapreduce Vs Spark Vs Storm Vs Drill - For Small filesMapreduce Vs Spark Vs Storm Vs Drill - 适用于小文件
【发布时间】:2015-08-15 18:58:47
【问题描述】:

我知道 spark 进行内存计算并且比 MapReduce 快得多。 我想知道 spark 对于记录

我在后端使用 MapReduce 的 hive 中进行数据质量检查。每个文件大约需要 8 分钟,这对我来说非常糟糕。 火花会给我更好的表现让我说2-3分钟吗?

我知道我必须做一个基准测试,但在我真正开始使用 spark 之前,我试图了解这里的基础知识。 我记得第一次创建 RDD 将是一项开销,因为我必须为每个传入的文件创建一个新的 RDD,这将花费我一点。

我很困惑哪种方法最适合我 - spark、drill、storm 或 Mapreduce 本身?

【问题讨论】:

  • 鉴于您提供的信息,几乎不可能回答这个问题。什么具体数字=“大量文件”?这些文件中有什么类型的数据?您正在执行的需要 8 分钟的确切“数据质量检查”是什么?您正在使用哪些特定硬件 - 1k 个节点或 10 个节点?
  • @GoBrewers14 :我每天将收到大约 4000 个文件。该文件包含由管道分隔的数据字段(文本数据)。我执行的数据质量类型是在每一列(文件级别检查)上,以使文件包含有效数据、没有缺失值、空字符串、无效日期格式等。我有大约 100 列,我检查了大约50 列,未来可能会增加。目前我在一个三节点集群中工作,我知道这不是一个好的选择。但我一直在寻找的是获得我能获得的性能的感觉。
  • @GoBrewers14 :因为我有大约 10000 条记录,所以增加节点的数量可能并没有真正的帮助,因为数据总是小于我的块大小(如果我错了,请纠正我),我是对的现在使用 mapr hadoop 发行版。如果我说我有一个由 10 个节点组成的集群,它将如何表现得更好? i 使用 oozie 来安排任务,所以 oozie 的延迟也必须处理

标签: hadoop apache-spark hive apache-storm apache-drill


【解决方案1】:

我只是在大约数百万条记录中探索 Drill vs Spark vs Hive 的性能。在我的情况下,Dill 和 Spark 都快 5-10 倍我没有对具有大量 RAM 的集群执行任何性能测试,我只是在单个节点上进行了测试)快速计算的原因 - 它们都执行内存计算。

在我的情况下,钻头和火花的性能几乎是可比的。所以,我不能说哪个更好。您需要在最后尝试一下。

在 Drill 上进行测试不会花费太多时间。 Download 最新的演习,install 在您的 mapr hadoop 集群上,添加 hive-storage plugin 并执行 query

【讨论】:

    猜你喜欢
    • 2018-07-08
    • 1970-01-01
    • 2013-06-21
    • 2015-03-03
    • 1970-01-01
    • 1970-01-01
    • 2015-10-04
    • 1970-01-01
    • 2013-09-14
    相关资源
    最近更新 更多