【发布时间】:2017-01-17 20:47:24
【问题描述】:
看了What is hive, Is it a database?后,昨天有同事提到他可以过滤一个15B的表,在“group by”后加入另一个表,结果是6B的记录,只用了10分钟!我想知道这在 Spark 中是否会更慢,因为现在使用 DataFrame,它们可能具有可比性,但我不确定,因此是这个问题。
Hive 比 Spark 快吗?还是这个问题没有意义?对不起,我的无知。
他使用最新的 Hive,似乎在使用 Tez。
【问题讨论】:
-
将它们放在同等的硬件上并运行类似的工作负载。你会知道答案的。 :)
-
正确的@SergioTulentsev,但这可能不是特定于数据的吗?我的意思是我想在这里问的是is Spark faster than Hadoop?..因为假设我做了这个实验,我仍然不知道为什么。我试图理解理论上会发生什么.. :)
-
Facebook 已成功将大量批处理作业从 Hive 移植到 Spark。他们花了 几个月的调试时间(和 13 个 Spark JIRA)和调整。但现在他们的工作运行得更快了。你准备好挑战了吗?? code.facebook.com/posts/1671373793181703/…
-
IBM 尝试使用 Spark 2.0 大规模运行 TPC-DS 基准测试。但最终,他们不得不调整许多配置属性,包括记录和未记录的,才能通过。你准备好挑战了吗?? slideshare.net/jcmia1/apache-spark-20-tuning-guide/2
-
@SamsonScharfrichter 有一些真的很酷的链接,谢谢!当我尝试将管道扩展到 15T 时,我感受到了第一句话的意思。谢谢!
标签: hadoop apache-spark hive apache-tez bigdata