【发布时间】:2020-11-10 02:04:39
【问题描述】:
我有一个如下的数据框,可以识别任何人的全名:
-------------------
| f_name | l_name |
-------------------
| abc | xyz |
| xyz | abc |
| pqr | lmn |
-------------------
这里第二行和第一行基本相同。
考虑这样一种情况:数据中出现了一个条目,错误地将姓放在名字下面(f_name),而把名字放在姓氏下面(l_name) >)
如何识别和删除/解决 spark 数据框中的此类重复/错误记录?
期望的结果:
-------------------
| f_name | l_name |
-------------------
| abc | xyz |
| pqr | lmn |
-------------------
解决方案可以是udf 或SQL 或两者兼有。谢谢!
【问题讨论】:
标签: sql dataframe apache-spark