【发布时间】:2020-02-29 01:22:09
【问题描述】:
我正在使用火花流来制作实时数据管道。 我从 Kafka 获取实时数据并使用 Spark 处理这些数据。
但是当我使用来自 S3 的新传入数据更新 S3 上现有的 parquet 文件时,它的性能并不好。因为我必须从 S3 获取现有的分区镶木地板文件,并用来自 Kafka 的新记录替换旧记录,然后覆盖 S3 上的完整分区镶木地板文件。
因此需要很长时间,因为此表会经常更新。
您能否建议我在火花流中执行更新操作的更好方法?
提前致谢。
【问题讨论】:
标签: apache-spark spark-streaming parquet