【问题标题】:How to execute custom C++ binary on HDFS file如何在 HDFS 文件上执行自定义 C++ 二进制文件
【发布时间】:2019-10-12 11:52:49
【问题描述】:

我有自定义 C++ 二进制文件,它读取原始数据文件并写入派生数据文件。文件大小为 100Gbs。此外,我想并行处理多个 100Gb 文件并生成派生元数据的物化视图。因此,map-reduce 范式似乎更具可扩展性。

我是 Hadoop 生态系统的新手。我使用 Ambari 在 AWS 上设置了 Hadoop 集群。我在每个数据节点上构建了我的自定义 C++ 二进制文件,并将原始数据文件加载到 HDFS 上。在 HDFS 文件上执行此二进制文件有哪些选择?

【问题讨论】:

  • 请考虑为您的问题使用适当的标签。

标签: apache-spark hadoop hive bigdata hadoop2


【解决方案1】:

Hadoop 流式传输是将非 Java 应用程序作为 MapReduce 运行的最简单方法。

详情请参阅Hadoop Streaming

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-10-11
    • 1970-01-01
    • 2013-02-20
    • 1970-01-01
    • 2015-12-19
    相关资源
    最近更新 更多