【发布时间】:2016-05-15 06:57:55
【问题描述】:
我需要处理日志文件数据。这是相对微不足道的。我有 4 台服务器,每台服务器上运行 2 个 Web 应用程序,总共有 8 个日志文件。这些会定期轮换。我正在将以下格式的数据写入这些日志文件中
源时间戳:9340398;39048039;930483;3940830
其中数字是数据存储中的标识符。我想设置一个进程来读取这些日志,并且对于每个 id,它将根据其 id 被记录的次数更新计数。它可以是实时的或批处理的。我的数据存储界面语言是 Java。该过程在生产中运行,因此需要健壮,但还需要具有相对简单的架构,以便可维护。我们还运行 zookeeper。
我最初的想法是,只要日志文件在每台服务器上运行 Apache spark 旋转,就批量执行此操作。然而,我随后开始研究 Apache Flume、Kafka 和 Storm 等日志聚合器,但这似乎有点矫枉过正。
鉴于有多种选择,有没有人根据经验对使用哪些工具来处理此问题提出任何好的建议?
【问题讨论】:
-
也许像logstash 这样的解决方案可以使用?一般来说,这类问题在 SO 上是题外话。
-
您好,我查看了 Logstash,它似乎更倾向于过滤类型的操作。我同意这个问题不适合 SO 章程。
标签: apache-spark apache-storm logfiles