【问题标题】:Amazon EMR NativeS3FileSystem internals queryAmazon EMR NativeS3FileSystem 内部查询
【发布时间】:2013-01-30 13:53:33
【问题描述】:

与普通 Hadoop HDFS(即输入拆分计算、实际数据流)相比,是否有人对 Amazon EMR 案例中具有不同 InputFormat 的 NativeS3FileSystem 的内部工作有见解?将 Amazon EMR 与 S3 结合使用时,有哪些最佳实践和需要考虑的要点?

谢谢,

【问题讨论】:

    标签: amazon-s3 amazon-emr


    【解决方案1】:

    重要的是,如果您打算使用 S3N 而不是 HDFS,您应该知道这意味着您将失去 数据本地化 的好处,这可能会对您的工作产生重大影响.

    一般来说,在使用 S3N 时,您的工作流程有 2 种选择:

    • 从 S3 流式传输数据以替代 HDFS:如果您需要持续访问整个数据集,这很有用,但如前所述,可能存在一些性能限制。
    • 将数据从 S3 复制到 HDFS:如果您只需要在某个时间点访问一小部分数据,您应该只复制到 HDFS 以保留数据本地化的优势。

    根据我的经验,我还注意到,对于大型作业,拆分计算可能会变得非常繁重,我什至见过 CPU 100% 仅用于计算输入拆分的情况。原因是我认为 Hadoop FileSystem 层试图分别获取每个文件的大小,如果存储在 S3N 中的文件涉及为每个文件发送 API 调用,所以如果你有很多输入的大工作可以花时间的文件。

    有关更多信息,我建议您查看the following article,那里有人在亚马逊论坛上提出了类似的问题。

    【讨论】:

    • 感谢您的链接。这回答了最佳实践的一部分,但我仍在寻找 NativeS3FileSystem 的工作原理。
    猜你喜欢
    • 1970-01-01
    • 2012-05-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-04-23
    • 2016-05-18
    • 2019-01-07
    • 1970-01-01
    相关资源
    最近更新 更多