【问题标题】:Storing files to S3 : local file vs HDFS将文件存储到 S3:本地文件与 HDFS
【发布时间】:2016-09-24 02:21:51
【问题描述】:

背景

使用 java 将文件上传到 s3 的简单老问题

S3 不支持流式传输 (AFAIK),因此在上传数据之前需要将数据分组到一些适当大小的文件中。

在创建上述这些临时文件时,就位置而言,有一些选项

  1. 在某些指定目录中本地
  2. 在 HDFS 中本地(如果可能的话,我什至不知道来自 Hadoop 的 H)
  3. 到 hadoop 集群中的 HDFS

问题

  1. 哪个可能更快?
  2. 使用 HDFS(本地或集群)与本地 FS 相比是否有优势,HDFS 在本质上更接近 S3 格式?

技术和基础设施

EC2、Linux、Java

【问题讨论】:

    标签: java linux hadoop amazon-s3 hdfs


    【解决方案1】:

    如果你在本地有足够的磁盘空间,就在本地做。否则,您可以将数据合并到 HDFS 上所需的存储中,然后上传它们。但是,HDFS 不应该是您的首选。

    【讨论】:

    • 请问为什么不推荐HDFS?
    • HDFS 并不是真正为此设计的,如果可能的话,在磁盘上进行所有文件操作会更快。
    • 是的,最终使用本地 FS 并上传到 S3 最终压缩文件
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-12-30
    • 2013-02-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多