【发布时间】:2015-08-15 18:58:47
【问题描述】:
我知道 spark 进行内存计算并且比 MapReduce 快得多。 我想知道 spark 对于记录
我在后端使用 MapReduce 的 hive 中进行数据质量检查。每个文件大约需要 8 分钟,这对我来说非常糟糕。 火花会给我更好的表现让我说2-3分钟吗?
我知道我必须做一个基准测试,但在我真正开始使用 spark 之前,我试图了解这里的基础知识。 我记得第一次创建 RDD 将是一项开销,因为我必须为每个传入的文件创建一个新的 RDD,这将花费我一点。
我很困惑哪种方法最适合我 - spark、drill、storm 或 Mapreduce 本身?
【问题讨论】:
-
鉴于您提供的信息,几乎不可能回答这个问题。什么具体数字=“大量文件”?这些文件中有什么类型的数据?您正在执行的需要 8 分钟的确切“数据质量检查”是什么?您正在使用哪些特定硬件 - 1k 个节点或 10 个节点?
-
@GoBrewers14 :我每天将收到大约 4000 个文件。该文件包含由管道分隔的数据字段(文本数据)。我执行的数据质量类型是在每一列(文件级别检查)上,以使文件包含有效数据、没有缺失值、空字符串、无效日期格式等。我有大约 100 列,我检查了大约50 列,未来可能会增加。目前我在一个三节点集群中工作,我知道这不是一个好的选择。但我一直在寻找的是获得我能获得的性能的感觉。
-
@GoBrewers14 :因为我有大约 10000 条记录,所以增加节点的数量可能并没有真正的帮助,因为数据总是小于我的块大小(如果我错了,请纠正我),我是对的现在使用 mapr hadoop 发行版。如果我说我有一个由 10 个节点组成的集群,它将如何表现得更好? i 使用 oozie 来安排任务,所以 oozie 的延迟也必须处理
标签: hadoop apache-spark hive apache-storm apache-drill