【发布时间】:2016-01-22 05:30:08
【问题描述】:
我有 4 个 CSV 文件形式的不同数据集,其中的公共字段是 ID。我必须使用 Join 来实现。为了实现这个更好的 Map Reduce 或 HIVE 概念,是否可以将 Map Reduce 和 HIVE 结合起来
非常感谢。
【问题讨论】:
标签: hadoop dictionary hive reduce
我有 4 个 CSV 文件形式的不同数据集,其中的公共字段是 ID。我必须使用 Join 来实现。为了实现这个更好的 Map Reduce 或 HIVE 概念,是否可以将 Map Reduce 和 HIVE 结合起来
非常感谢。
【问题讨论】:
标签: hadoop dictionary hive reduce
Hive 将 Hive 查询转换为一系列 MapReduce 作业以模拟查询的行为。虽然 Hive 非常有用,但将业务逻辑表示为 Hive 查询并不总是有效的。
如果您对性能延迟和要加入的大型数据集感到满意,您可以选择 HIVE。
如果您的数据集较小,您仍然可以使用 Map Reduce Joins 或 分布式缓存。
查看Map Reduce Joins 文章。
【讨论】:
在大多数情况下,Map Reduce 与Hive 相比,对于任何用例都会提供更好的性能和控制。必须在更好地理解用例的情况下编写代码。
是的,Map Reduce 和 Hive 可以结合使用。
【讨论】: