如何在 HDFS 文件上执行自定义 C++ 二进制文件答案

【问题标题】：How to execute custom C++ binary on HDFS file如何在 HDFS 文件上执行自定义 C++ 二进制文件
【发布时间】：2019-10-12 11:52:49
【问题描述】：

我有自定义 C++ 二进制文件，它读取原始数据文件并写入派生数据文件。文件大小为 100Gbs。此外，我想并行处理多个 100Gb 文件并生成派生元数据的物化视图。因此，map-reduce 范式似乎更具可扩展性。

我是 Hadoop 生态系统的新手。我使用 Ambari 在 AWS 上设置了 Hadoop 集群。我在每个数据节点上构建了我的自定义 C++ 二进制文件，并将原始数据文件加载到 HDFS 上。在 HDFS 文件上执行此二进制文件有哪些选择？