【发布时间】:2015-12-28 00:13:02
【问题描述】:
如果我们将数据从 HDFS 加载到 Hive 表中,与从本地文件加载数据相比有什么优势?如果我们将数据从 HFDS 加载到 Hive 中,不就是在 HDFS 中进行数据复制吗?
【问题讨论】:
如果我们将数据从 HDFS 加载到 Hive 表中,与从本地文件加载数据相比有什么优势?如果我们将数据从 HFDS 加载到 Hive 中,不就是在 HDFS 中进行数据复制吗?
【问题讨论】:
本地到 HDFS 将变慢,因为单个大块数据将从本地传输到远程 n 节点数。
如果您将 HDFS 文件复制到 Hive 表中,将会有数据复制,这是 Hive 管理其自己的目录的默认功能,如果您不希望复制数据,请查看此答案:Is it possible to import data into Hive table without copying the data
【讨论】: