【发布时间】:2016-12-30 19:07:58
【问题描述】:
在任何地方都找不到直接的答案。我正在将传入的数据集加入到以前位于 Web 服务后面的 MySQL 表中的几个大表中。我将表转储到 Hadoop 中的平面 CSV 文件中,我正在使用 Pig 加载传入的数据集和表文件,并执行连接。
这很慢,因为有几个表文件要加入,而且文件本身太大了。我只是想在一个字段上加入LEFT OUTER,没什么特别的。
所以,我的问题是,将 CSV 文件加载到 Hive 表中并在 Pig 中使用 HCatLoader 而不是仅加载 CSV 文件是否有任何性能优势?除了查询表的类似 SQL 的接口之外,Hive 似乎没有提供任何好处,当我只是将数据集加入整个事物时,这并不重要。
【问题讨论】:
-
为什么不将数据加载到 Hive 并在那里完成所有工作?
-
您确定加载是您的瓶颈吗?外连接似乎更有可能。
-
戈登,我的项目限制不允许我这样做。 @GoBrewers 连接绝对是瓶颈,只是想知道加载部分。
标签: hadoop mapreduce hive apache-pig