【发布时间】:2018-09-03 04:01:51
【问题描述】:
我想知道是否有办法在 Spark 结构化流中指定小批量的大小。这不仅仅是说明小批量间隔(触发器),我想说明每个间隔在小批量(数据帧)中可以有多少行。 有没有办法做到这一点?
除了执行此操作的一般能力之外,我特别需要在测试场景中应用它,我有一个 MemoryStream。我希望 Spark 使用 MemoryStream 中的一定数量的数据,而不是一次获取所有数据,以实际查看整个应用程序的行为方式。我的理解是 MemoryStream 数据结构需要在启动作业之前填充。因此,我如何查看小批量处理行为,spark 是否能够在我给定的时间间隔内摄取 MemoryStream 的全部内容?
EDIT1
在 Kafka 集成中,我发现了以下内容:
maxOffsetsPerTrigger:每个触发间隔处理的最大偏移量的速率限制。指定的总偏移量将按比例分配到不同卷的 topicPartitions。
但这仅适用于 KAFKA 集成。我也看过
maxFilesPerTrigger:每个触发器中要考虑的最大新文件数
所以看起来事情是根据源类型定义的。因此,有没有办法控制如何从 MEMORYSTREAM[ROW] 消耗数据?
【问题讨论】:
标签: scala spark-streaming