【发布时间】:2016-02-01 11:41:47
【问题描述】:
我的 hadoop 集群中有几个文件,每个文件中有大约 2000 个字段。我需要一种快速的方法来从每个文件中删除特定字段并创建一个新文件以 sftping 到客户端。
例如。我有 20 个文件,字段从 1 到 2000 我需要从每个文件中按顺序提取字段 1,6,7,777,545,345,655,1004 等。
我每天都需要这样做,并且有几个流程选择不同的字段来使用。
有兴趣听听其他人的建议,以便使用最好的技术来做到这一点?
- 使用 hive 查询选择所有必填字段
- 使用 mapreduce 使用
- spark 运行 hive
- 或 mapreduce 完全不同的其他东西
谢谢, 红色
【问题讨论】:
标签: hadoop mapreduce hive cloudera-cdh