【发布时间】:2022-01-20 23:41:04
【问题描述】:
我对 Spark 和 Python 非常陌生。我正在尝试查看 Spark Structured Streaming 中的任何指标(例如,processedRowsPerSecond),但我不知道该怎么做。
我在“Structured Streaming Programming Guide”中读到,使用 print(query.lastProgress) 您可以直接获取活动查询的当前状态和指标,但如果我编写它,我只能获取 @987654323 @ 一次。我的代码的最后一部分如下:
query = windowedCountsDF\
.writeStream\
.outputMode('update')\
.option("truncate", "false") \
.format('console') \
.queryName("numbers") \
.start()
print(query.lastProgress)
query.awaitTermination()
任何关于如何做到这一点的想法都将受到高度赞赏。
【问题讨论】:
标签: python apache-spark pyspark spark-structured-streaming