【发布时间】:2019-10-12 11:52:49
【问题描述】:
我有自定义 C++ 二进制文件,它读取原始数据文件并写入派生数据文件。文件大小为 100Gbs。此外,我想并行处理多个 100Gb 文件并生成派生元数据的物化视图。因此,map-reduce 范式似乎更具可扩展性。
我是 Hadoop 生态系统的新手。我使用 Ambari 在 AWS 上设置了 Hadoop 集群。我在每个数据节点上构建了我的自定义 C++ 二进制文件,并将原始数据文件加载到 HDFS 上。在 HDFS 文件上执行此二进制文件有哪些选择?
【问题讨论】:
-
请考虑为您的问题使用适当的标签。
标签: apache-spark hadoop hive bigdata hadoop2