【问题标题】:Splitting a flink dataset into multiples by key and write to separate files通过 key 将 flink 数据集拆分为多个并写入单独的文件
【发布时间】:2016-11-15 21:21:13
【问题描述】:

我想根据 tuple2 的 Integer 值将我的 DataSet<Tuple2<Integer, Point>> 拆分为 n 个 DataSet。

目前我基本上是对数据集进行 n 次过滤,并将每个结果保存到单独的文件中。我宁愿有一个更好,更多变的方式。而且这似乎没有利用 flink 能力。

如果您需要更多信息,请告诉我。

【问题讨论】:

    标签: apache-flink


    【解决方案1】:

    拆分数据集的常用方法是在输入数据集上使用过滤器,如下所述:

    Dataset split/demultiplex in Flink mailing list

    据我所知,没有操作员可以按照您的意愿进行拆分。正如答案中所说,“开销应该是合理的。数据保持在同一个节点上 并且过滤器可以非常轻巧。”

    【讨论】:

      猜你喜欢
      • 2022-07-07
      • 2016-09-14
      • 2022-10-07
      • 1970-01-01
      • 2015-07-05
      • 2018-02-17
      • 1970-01-01
      • 2019-03-03
      • 1970-01-01
      相关资源
      最近更新 更多