【发布时间】:2025-12-07 05:30:01
【问题描述】:
我有 2 个 ArrayType 列的数据框。 我想找到列之间的区别。 column1 将始终具有值,而 column2 可能具有空数组。 我创建了以下 udf 但它不起作用
df.show() 给出以下记录
样本数据:
["Test", "Test1","Test3", "Test2"], ["Test", "Test1"]
代码:
sc.udf.register("diff", (value: Column,value1: Column)=>{
value.asInstanceOf[Seq[String]].diff(value1.asInstanceOf[Seq[String]])
})
输出:
["Test2","Test3"]
Spark 版本 1.4.1 任何帮助将不胜感激。
【问题讨论】:
-
结果如何?
-
它给出了
value的所有值 -
你能粘贴示例数据吗?理想情况下它应该工作
-
希望你用过
collection.SeqLike.diff -
请分享示例数据和预期输出。
标签: scala apache-spark apache-spark-sql spark-dataframe