使用或不使用 Hive 在 Amazon EMR 中处理日志答案

【问题标题】：Processing logs in Amazon EMR with or without using Hive使用或不使用 Hive 在 Amazon EMR 中处理日志
【发布时间】：2012-12-21 04:43:34
【问题描述】：

我的 EMR 集群中有很多日志文件，路径为“hdfs:///logs”。每个日志条目是多行，但有一个开始和结束标记来区分两个条目。现在，

并非日志文件中的所有条目都有用
有用的条目需要转换，输出需要存储在输出文件中，以便我以后可以有效地查询（使用 Hive）输出日志。

我有一个 python 脚本，它可以简单地获取一个日志文件并执行 a 部分。和 b。上面提到过，但我没有写任何映射器或减速器。

Hive 处理 Mappers 和 Reducers 的查询。请告诉我是否以及如何使用 python 脚本在所有日志上运行它并将输出保存在 'hdfs:///outputlogs' 中？

我是 Map Reduce 的新手，看过一些字数统计示例，但它们都有一个输入文件。在哪里可以找到具有多个输入文件的示例？

【问题讨论】：

标签： hadoop hive hadoop-streaming emr

【解决方案1】：

我看到你有两个问题：

有多个文件作为输入

如果您传入多个单词，则相同的字数统计示例将起作用文件作为输入。事实上，您可以很容易地将folder name 传递为输入而不是文件名，在您的情况下为hdfs:///logs。

您甚至可以将逗号分隔的路径列表作为输入传递，例如这而不是使用以下：

FileInputFormat.setInputPaths(conf, new Path(args[0]));

您可以使用以下内容：

FileInputFormat.setInputPaths(job, args[0]);

请注意，仅传递以args[0] 分隔的逗号列表将足够了。
如何将您的逻辑转换为 mapreduce

这确实有一个陡峭的学习曲线，因为您需要考虑键和值的术语。但我觉得你可以拥有所有映射器本身的逻辑并具有IdentityReducer，如下所示：

conf.setReducerClass(IdentityReducer.class);

如果您花一些时间阅读以下位置的示例，您应该能够更好地做出这些决定：

【讨论】：

【解决方案2】：

正如 Amar 所说，长期正确的做法是编写一个 MapReduce 作业来完成它。

但是，如果这是一次性的事情，并且数据不是太大，那么使用简单的 bash 脚本执行此操作可能是最简单/最容易的，因为您已经有了 python 脚本：

hadoop fs -text /logs/* > input.log
python myscript.py input.log output.log
hadoop fs -copyFromLocal output.log /outputlogs
rm -f input.log output.log

如果这是一个重复的过程 - 您希望可靠和高效 - 或者如果您只是想学习更好地使用 MapReduce，那么请坚持使用 Amar 的答案。

【讨论】：

【解决方案3】：

如果您已经编写了逻辑，并且希望使用 EMR 和/或普通 Hadoop 进行并行处理 - 您可以使用 Hadoop 流式处理：http://hadoop.apache.org/docs/r0.15.2/streaming.html。简而言之 - 您的脚本将数据输入标准输入并输出到标准输出可以成为映射器。
因此，您将使用集群在 HDFS 中运行数据处理，而无需重新打包您的代码。

【讨论】：