【问题标题】:Getting data into Hadoop将数据导入 Hadoop
【发布时间】:2013-08-12 14:04:50
【问题描述】:

我来自很多 SQL 服务器,因此可能有点难以准确描述数据在进入 hadoop 时会发生什么。

我的理解是,如果您有一本书的文本格式可能在 200k 左右……您只需将数据复制到 hadoop 中,它就可以搜索了。但是,这些数据是否会成为块的一部分,以便 HDFS 可以更优化,还是在 HDFS 中保持 200k 文件会损害性能?

Block也是Bigtable中常说的Tablet?

非常感谢您的帮助。 飞马里奥

【问题讨论】:

    标签: hadoop nosql bigdata bigtable


    【解决方案1】:

    小于 HDFS 块大小(默认 64 兆字节)的文件将成为块的一部分,是的。但在某些情况下,诸如此类的小文件可能仍会影响您的性能,例如,如果您有很多此类小文件并且您在它们上运行 MapReduce 作业。

    Vanilla Hadoop 与 Bigtable 无关,HDFS 块也无法与平板电脑相比。虽然 Hadoop 的 HDFS 块不知道它们持有的数据,但 Bigtable 平板电脑是数据感知的。

    【讨论】:

    • 非常感谢!这就说得通了。我一直试图弄清楚像雅虎和谷歌这样的搜索引擎如何使用像 Hadoop 这样的东西,因为似乎没有结构。它似乎只是文件。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-12-04
    • 1970-01-01
    相关资源
    最近更新 更多