如何使用 Spark Structured Streaming 逐块处理文件？

【问题标题】：How to process files using Spark Structured Streaming chunk by chunk?如何使用 Spark Structured Streaming 逐块处理文件？
【发布时间】：2018-10-28 00:06:38
【问题描述】：

我正在处理大量文件，并且我想逐块处理这些文件，假设在每个批次中，我想分别处理每个 50 个文件。

如何使用 Spark 结构化流式处理？

我看到 Jacek Laskowski (https://stackoverflow.com/users/1305344/jacek-laskowski) 在一个类似的问题 (Spark to process rdd chunk by chunk from json files and post to Kafka topic) 中说可以使用 Spark Structured Streaming，但我找不到任何关于它的示例。

非常感谢，

【问题讨论】：

标签： scala apache-spark spark-structured-streaming

【解决方案1】：

如果使用文件源：

maxFilesPerTrigger：每个触发器中要考虑的最大新文件数（默认值：无最大值）

spark
  .readStream
  .format("json")
  .path("/path/to/files")
  .option("maxFilesPerTrigger", 50)
  .load

如果使用 Kafka 源，则类似，但使用 maxOffsetsPerTrigger 选项。

【讨论】：

如果您使用maxFilesPerTrigger，那么您还必须在writeStream.option 中指定checkpointLocation