【发布时间】:2016-09-24 02:21:51
【问题描述】:
背景
使用 java 将文件上传到 s3 的简单老问题
S3 不支持流式传输 (AFAIK),因此在上传数据之前需要将数据分组到一些适当大小的文件中。
在创建上述这些临时文件时,就位置而言,有一些选项
- 在某些指定目录中本地
- 在 HDFS 中本地(如果可能的话,我什至不知道来自 Hadoop 的 H)
- 到 hadoop 集群中的 HDFS
问题
- 哪个可能更快?
- 使用 HDFS(本地或集群)与本地 FS 相比是否有优势,HDFS 在本质上更接近 S3 格式?
技术和基础设施
EC2、Linux、Java
【问题讨论】:
标签: java linux hadoop amazon-s3 hdfs