【发布时间】:2019-03-14 02:21:41
【问题描述】:
我正在使用 PySpark 的 DataFrame 部分来分析来自 Apache Kafka 的数据。我遇到了一些麻烦,需要一些帮助。
from pyspark.sql import functions
# selected_df is dataframe come from kafka use spark.readStream.format("kafka")...
windowed_group_1 = selected_df.withWatermark("kafka_time", "10 minutes").groupBy(functions.window("kafka_time", "10 seconds", "5 seconds"))
windowed_group_2 = selected_df.withWatermark("kafka_time", "10 minutes").groupBy(functions.window("kafka_time", "10 seconds", "5 seconds"))
这两个groupby是同一个窗口函数吗?它们在相同的选项中。
如果不是,我该怎么做?
windowed_group_1 == windowed_group_2
提前感谢您的帮助。
【问题讨论】: