【发布时间】:2019-03-28 23:28:37
【问题描述】:
我们有一些关于我们主题的历史数据排队,我们不希望在一个批次中处理所有这些数据,因为这样做更难(如果失败,就必须重新开始!)。
此外,了解如何控制批量大小对于调整作业非常有帮助。
使用DStreams时,尽可能精确控制batch大小的方法是Limit Kafka batches size when using Spark Streaming
同样的方法,即设置maxRatePerPartition,然后调整batchDuration 非常麻烦,但与DStream 一起使用,它根本不适用于结构化流。
理想情况下,我想知道像 maxBatchSize 和 minBatchSize 这样的配置,我可以在其中简单地设置我想要的记录数。
【问题讨论】:
标签: scala apache-spark apache-kafka spark-streaming spark-structured-streaming