【发布时间】:2019-03-30 04:21:24
【问题描述】:
想知道什么(以及如何修改)会触发 Spark 结构化流式查询(配置了 Parquet 文件输出接收器)以将数据写入 Parquet 文件。我定期提供 Stream 输入数据(使用 StreamReader 读取文件),但它不会将输出写入 Parquet 文件中作为输入提供的每个文件。一旦我给了它一些文件,它往往会写一个 Parquet 文件就好了。
我想知道如何控制它。我希望能够为作为输入提供的每个新文件强制写入 Parquet 文件。任何提示表示赞赏!
注意:我在 Read Stream 调用中将 maxFilesPerTrigger 设置为 1。我还看到流式查询处理单个输入文件,但是输入上的单个文件似乎不会导致流式查询将输出写入 Parquet 文件
【问题讨论】:
标签: apache-spark spark-structured-streaming