【发布时间】:2018-04-19 04:24:24
【问题描述】:
给定以下DataSet 值为inputData:
column0 column1 column2 column3
A 88 text 99
Z 12 test 200
T 120 foo 12
在 Spark 中,计算新的hash 列并将其附加到新的DataSet、hashedData 的有效方法是什么,其中hash 定义为在每一行上应用MurmurHash3 inputData 的值。
具体来说,hashedData 为:
column0 column1 column2 column3 hash
A 88 text 99 MurmurHash3.arrayHash(Array("A", 88, "text", 99))
Z 12 test 200 MurmurHash3.arrayHash(Array("Z", 12, "test", 200))
T 120 foo 12 MurmurHash3.arrayHash(Array("T", 120, "foo", 12))
如果需要更多细节,请告诉我。
感谢任何帮助。谢谢!
【问题讨论】:
标签: scala apache-spark spark-dataframe apache-spark-dataset