【问题标题】:how to benchmark the kafka spark-streaming?如何对卡夫卡火花流进行基准测试?
【发布时间】:2019-01-29 15:23:29
【问题描述】:

我必须执行火花流处理的基准测试。我的进程从 kafka 中获取消息,处理并加载到 ElasticSearch 中。上游每秒生成 100k 条记录。所以我想计算1秒内处理了多少条消息和延迟时间。是否有任何工具可用于监控这一点,或者是否有任何过程来计算这一点。

【问题讨论】:

  • 你可以查看你工作的 spark ui。很详细。
  • 当您说“基准”时,您希望获得哪些指标?
  • 我想要每秒处理多少条消息
  • 正如@z-star 所说,UI 有该信息。让作业运行足够长的时间来观察进程的长期行为。

标签: apache-spark apache-kafka spark-streaming


【解决方案1】:

Spark UI 可以帮助您,提供您需要的必要细节。 默认情况下,spark ui 在 web 浏览器中的 http://:4040 上可用(对于单个 spark 上下文)。 如需帮助,您可以使用此链接:http://spark.apache.org/docs/latest/monitoring.html

【讨论】:

    【解决方案2】:

    除了有助于确定数据处理速率的 Spark UI 之外,您还可以使用 spark-perf 等第三方工具对集群执行负载测试并以这种方式获取基准数据。

    【讨论】:

      【解决方案3】:

      也许有人应该试试 Yahoo 的流式基准测试,我发现 databricks 使用该工具在 spark 流式传输和 flink 之间进行基准测试。

      https://github.com/yahoo/streaming-benchmarks https://databricks.com/blog/2017/10/11/benchmarking-structured-streaming-on-databricks-runtime-against-state-of-the-art-streaming-systems.html

      【讨论】:

        猜你喜欢
        • 2016-08-03
        • 2018-09-15
        • 2018-08-13
        • 2018-02-24
        • 2023-03-19
        • 2018-08-15
        • 1970-01-01
        • 2019-04-11
        • 1970-01-01
        相关资源
        最近更新 更多