【问题标题】:logstah vs spark streaming and stormlogstash vs spark流和风暴
【发布时间】:2016-07-10 14:18:18
【问题描述】:

我正在构建一个分布式实时集群系统来监督和分析网络。我在互联网上做了几项研究,我得出的技术很少:

  • 用于实时处理:logstash、storm 和 apache 流
  • 用于存储:elasticsearch
  • 用于分析:Apache Spark over Hadoop(我将使用 ES-Hadoop 连接 Elasticsearch)
  • 用于数据可视化:kibana、D3js、c3js

但是,logstash 并不经常被称为 spark 流和风暴。我在互联网上发现了下图所示的以下架构:

我有两个问题:

  1. 我不明白为什么 Logstash 不经常被称为实时处理系统,如 Spark Streaming 和 Storm。主要原因是什么?我一直在使用它,它非常强大..

  2. 关于分析部分,我可以在该配置中使用机器学习库吗?

【问题讨论】:

  • 也许我的问题还不清楚,但我要问的是,在 spark 流和风暴方面不选择 logstash 的主要原因可能是什么?我很难回答这个问题,因为我在互联网上找不到任何比较。再次感谢您。

标签: elasticsearch apache-spark logstash apache-storm spark-streaming


【解决方案1】:
  1. Lo​​gstash 不是集群流处理系统。它只是一个基于 JVM 的进程。最新版本支持磁盘缓冲区,但没有与 Spark 或 Storm 几乎相同的交付保证。看看http://storm.apache.org/releases/1.0.3/Guaranteeing-message-processing.html
  2. 是的,但不确定为什么要先使用 Elastic 来存储数据。为什么不是 HDFS->SparkML->Elastic?这里要考虑的主要问题是管理模型、训练和测试。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-11-11
    • 2016-10-11
    • 1970-01-01
    • 1970-01-01
    • 2015-01-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多