【发布时间】:2018-10-28 00:06:38
【问题描述】:
我正在处理大量文件,并且我想逐块处理这些文件,假设在每个批次中,我想分别处理每个 50 个文件。
如何使用 Spark 结构化流式处理?
我看到 Jacek Laskowski (https://stackoverflow.com/users/1305344/jacek-laskowski) 在一个类似的问题 (Spark to process rdd chunk by chunk from json files and post to Kafka topic) 中说可以使用 Spark Structured Streaming,但我找不到任何关于它的示例。
非常感谢,
【问题讨论】:
标签: scala apache-spark spark-structured-streaming