【发布时间】:2016-11-15 21:21:13
【问题描述】:
我想根据 tuple2 的 Integer 值将我的 DataSet<Tuple2<Integer, Point>> 拆分为 n 个 DataSet。
目前我基本上是对数据集进行 n 次过滤,并将每个结果保存到单独的文件中。我宁愿有一个更好,更多变的方式。而且这似乎没有利用 flink 能力。
如果您需要更多信息,请告诉我。
【问题讨论】:
标签: apache-flink
我想根据 tuple2 的 Integer 值将我的 DataSet<Tuple2<Integer, Point>> 拆分为 n 个 DataSet。
目前我基本上是对数据集进行 n 次过滤,并将每个结果保存到单独的文件中。我宁愿有一个更好,更多变的方式。而且这似乎没有利用 flink 能力。
如果您需要更多信息,请告诉我。
【问题讨论】:
标签: apache-flink
拆分数据集的常用方法是在输入数据集上使用过滤器,如下所述:
Dataset split/demultiplex in Flink mailing list
据我所知,没有操作员可以按照您的意愿进行拆分。正如答案中所说,“开销应该是合理的。数据保持在同一个节点上 并且过滤器可以非常轻巧。”
【讨论】: