【发布时间】:2018-02-26 14:27:46
【问题描述】:
我通读了 spark 结构化流式处理文档,我想知道 spark 结构化流式处理如何确定事件迟到?它是否将事件时间与处理时间进行比较?
以上图为例,粗体右箭头线“时间”是否代表处理时间?如果是这样
1) 这个处理时间从何而来?因为它的流式传输是否假设有人可能使用其中具有处理时间戳的上游源或火花添加了处理时间戳字段?例如,当从 Kafka 读取消息时,我们会执行类似
的操作Dataset<Row> kafkadf = spark.readStream().forma("kafka").load()
这个数据框默认有时间戳列,我假设它是处理时间。正确的?如果是,Kafka 或 Spark 是否添加此时间戳?
2) 我可以看到消息中的粗体右箭头线和时间之间存在时间比较。这就是 spark 确定事件迟到的方式吗?
【问题讨论】:
标签: apache-spark