【发布时间】:2016-08-23 03:25:03
【问题描述】:
我需要开发一个流式应用程序,它可以从多个来源读取一些会话日志。 批处理间隔可以在 5 分钟左右..
问题是我在每批中获得的文件差异很大。在每一批中,我可能会得到一些 10 兆字节的文件,然后在另一批中得到一些大约 20GB 的文件。
我想知道是否有任何方法可以处理这个问题。文件流可以为每个批次生成的 RDD 的大小是否有任何限制?
我可以限制火花流将每批中固定数量的数据读取到 RDD 中吗?
【问题讨论】:
标签: spark-streaming