【问题标题】:Increasing network load in HDFS traffic with stream jobs and Kafka使用流作业和 Kafka 增加 HDFS 流量中的网络负载
【发布时间】:2019-01-26 00:29:18
【问题描述】:

我们在使用新的 EMR 设置时遇到了无法解释的行为,其中包括: EMR 5.16(3 个节点 - c4.8xlarge 和 1 个主节点 - c4.8xlarge) 基于ECS的Kafka集群

我们运行简单的流作业,从 Kafka 主题读取,进行一些逻辑并将 writeStream 写回 Kafka 主题(使用 checkpointLocation 作为 HDFS 路径)

“问题”是在 Ganglia 中,我可以看到从驱动程序(在其中一个从属服务器上运行)到主服务器的网络流量不断增加。

我可以从一个简单的 pcap 文件中看到流量属于 50010(Hadoop 数据传输),而我在这里陷入了死胡同。

需要一些帮助,谢谢!

【问题讨论】:

  • 如果您从 Kafka 读取数据,然后将数据写回 Kafka,您是否有理由不使用 Kafka Streams API?那么你就不需要 HDFS 检查点了
  • 这是我的 writeStream 代码,例如:tmp = host_NoClass \ .selectExpr("CAST(timestamp AS STRING) AS key", "to_json(struct(*)) AS value") \ .writeStream \ .format("kafka") \ .option("kafka.bootstrap.servers", kafka_ip) \ .option("topic", "dd_no") \ .option("checkpointLocation", chckpt_dd_no) \ .outputMode("append") \ .start() 你还有其他的例子吗?
  • 是的,您使用的是 Spark。 Kafka Streams 是一个不同的 API,不依赖 HDFS 或 Spark kafka.apache.org/11/documentation/streams/developer-guide/…

标签: apache-spark hadoop apache-kafka hdfs amazon-emr


【解决方案1】:

经过一番调查和查看流量的负载,是发送给Master的日志!它被传递到 Spark 历史服务器并位于 HDFS..

我只需将此配置添加到我的 spark-submit --conf spark.eventLog.enabled=false

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-11-27
    • 2021-08-20
    • 2020-03-10
    • 2018-01-10
    • 2021-12-01
    • 2021-10-22
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多