将数据导入 Hadoop

【问题标题】：Getting data into Hadoop将数据导入 Hadoop
【发布时间】：2013-08-12 14:04:50
【问题描述】：

我来自很多 SQL 服务器，因此可能有点难以准确描述数据在进入 hadoop 时会发生什么。

我的理解是，如果您有一本书的文本格式可能在 200k 左右……您只需将数据复制到 hadoop 中，它就可以搜索了。但是，这些数据是否会成为块的一部分，以便 HDFS 可以更优化，还是在 HDFS 中保持 200k 文件会损害性能？

Block也是Bigtable中常说的Tablet？

非常感谢您的帮助。飞马里奥

【问题讨论】：

【解决方案1】：

小于 HDFS 块大小（默认 64 兆字节）的文件将成为块的一部分，是的。但在某些情况下，诸如此类的小文件可能仍会影响您的性能，例如，如果您有很多此类小文件并且您在它们上运行 MapReduce 作业。

Vanilla Hadoop 与 Bigtable 无关，HDFS 块也无法与平板电脑相比。虽然 Hadoop 的 HDFS 块不知道它们持有的数据，但 Bigtable 平板电脑是数据感知的。

【讨论】：