【问题标题】:Join spark dataset with complex condition加入复杂条件的火花数据集
【发布时间】:2018-04-12 05:40:39
【问题描述】:

考虑一个bean如下:

class Bean {
  String id;
  String joinColumn;
}

我有这个 Bean 的两个数据集,需要在 joinColumn 上加入,但加入的条件不等于。

我需要一个逻辑来比较 joinColumn 是否相等,如果不相等,则根据某些条件修改字符串并检查是否相等。使用dataset API应该怎么做?

【问题讨论】:

标签: apache-spark join apache-spark-sql apache-spark-dataset


【解决方案1】:
  1. 执行LEFT JOIN- 成功加入的元素将拥有来自两个 DS 的数据。其他将有 NULL。
  2. 存储成功加入的数据
  3. 从 1 的输出中过滤出成功连接的元素
  4. 根据您对 3 输出的条件修改字符串
  5. join 输出为 4
  6. Union 5 和 2 的输出。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-09-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-07-07
    • 1970-01-01
    相关资源
    最近更新 更多