【发布时间】:2020-02-29 11:22:18
【问题描述】:
如何将以下内容流式传输到表格中:
C 列和 D 列汇总的 A 列和 B 列之间的差异。
+-------------+-------------------+--+-
| Column_A|Column_B |Column_C|Column_D|
+-------------+-------------------+--+-
|52 |67 |boy |car |
|44 |25 |girl |bike |
|98 |85 |boy |car |
|52 |41 |girl |car |
+-------------+-------------------+--+-
这是我的尝试,但它不起作用:
difference = streamingDataF.withColumn("Difference", expr("Column_A - Column_B")).drop("Column_A").drop("Column_B").groupBy("Column_C")
differenceStream = difference.writeStream\
.queryName("diff_aggr")\
.format("memory").outputMode("append")\
.start()
我收到此错误:“GroupedData”对象没有属性“writeStream”
【问题讨论】:
标签: python apache-spark pyspark spark-streaming