【发布时间】:2023-03-20 19:57:01
【问题描述】:
但我有一个问题。 当我想使用 TriggerOnce 时,如何为我的工作配置背压?
在 spark 2.4 中,我有一个用例,用于回填一些数据,然后启动流。
所以我使用了一次触发器,但我的回填场景可能非常非常大,有时会因为洗牌和驱动程序内存而在我的磁盘上产生太大的负载,因为 FileIndex 缓存在那里。
所以我使用 max maxOffsetsPerTrigger 和 maxFilesPerTrigger 来控制我的 spark 可以处理多少数据。这就是我配置背压的方式。
现在你移除了这个能力,所以假设有人可以提出一个新的方法吗?
【问题讨论】:
标签: apache-spark spark-structured-streaming spark-kafka-integration