【问题标题】:How to process files using Spark Structured Streaming chunk by chunk?如何使用 Spark Structured Streaming 逐块处理文件?
【发布时间】:2018-10-28 00:06:38
【问题描述】:

我正在处理大量文件,并且我想逐块处理这些文件,假设在每个批次中,我想分别处理每个 50 个文件。

如何使用 Spark 结构化流式处理?

我看到 Jacek Laskowski (https://stackoverflow.com/users/1305344/jacek-laskowski) 在一个类似的问题 (Spark to process rdd chunk by chunk from json files and post to Kafka topic) 中说可以使用 Spark Structured Streaming,但我找不到任何关于它的示例。

非常感谢,

【问题讨论】:

    标签: scala apache-spark spark-structured-streaming


    【解决方案1】:

    如果使用文件源:

    maxFilesPerTrigger:每个触发器中要考虑的最大新文件数(默认值:无最大值)

    spark
      .readStream
      .format("json")
      .path("/path/to/files")
      .option("maxFilesPerTrigger", 50)
      .load
    

    如果使用 Kafka 源,则类似,但使用 maxOffsetsPerTrigger 选项。

    【讨论】:

    • 如果您使用maxFilesPerTrigger,那么您还必须在writeStream.option 中指定checkpointLocation
    猜你喜欢
    • 2023-03-31
    • 2021-05-22
    • 2019-06-25
    • 1970-01-01
    • 2020-01-05
    • 1970-01-01
    • 2020-09-03
    • 1970-01-01
    • 2020-03-19
    相关资源
    最近更新 更多