【发布时间】:2015-08-02 06:14:07
【问题描述】:
我的 Hadoop 知识已经 4 周了。我正在使用带有 Hadoop 的沙箱。
根据理论,当一个文件被复制到 HDFS 文件系统中时,它会被分割成 128 MB 的块。然后将每个块复制到不同的数据节点,然后复制到数据节点。
问题:
当我将一个数据文件 (~500 MB) 从本地文件系统复制到 HDFS(put 命令)时,整个文件仍然存在于 HDFS(-ls 命令)中。我期待看到 128 MB 块。我在这里做错了什么?
如果假设,我设法在 HDFS 中拆分和分发数据文件,有没有办法将原始文件合并并检索回本地文件系统?
【问题讨论】: