【发布时间】:2013-12-08 16:26:45
【问题描述】:
我知道 hive 将数据作为分区保存到 hadoop 文件系统中。但是,当我在 hive 中执行 LOAD DATA 时,确切的过程是如何工作的?
感谢您的回答!
【问题讨论】:
标签: database facebook hadoop hive hadoop-streaming
我知道 hive 将数据作为分区保存到 hadoop 文件系统中。但是,当我在 hive 中执行 LOAD DATA 时,确切的过程是如何工作的?
感谢您的回答!
【问题讨论】:
标签: database facebook hadoop hive hadoop-streaming
我知道 hive 将数据作为分区保存到 hadoop 文件系统中。
Hive 不存储数据。 Hive 可以被认为是 MapReduce 计算模型之上的更高层次的抽象。
假设数据已经在 HDFS 中并且表是在 Hive 中创建的,LOAD DATA 命令只会将 HDFS 中的数据映射到 Hive 中创建的表。映射存储在 Hive Metastore 数据库中,默认为 derby。 Here 是一篇关于 Hive Metastore 的类型以及如何配置它们的文章。
这只是在元存储数据库中插入/更新几行的问题,这就是LOAD DATA 命令速度快的原因。
【讨论】: