【发布时间】:2016-10-31 15:08:48
【问题描述】:
如问题中所述,我正在尝试为 RDD 的每一行生成一个哈希。出于我的目的,我不能使用 zipWithUniqueId() 方法,我需要所有列的一个哈希,用于 RDD 的每一行。
for row in DataFrame.collect():
return hashlib.sha1(str(row))
我知道这是最糟糕的方式,迭代到 rdd,但我是 pyspark 的初学者。然而问题是:我为每一行获得相同的哈希值。我尝试使用强抗碰撞哈希函数,但它太慢了。 有什么办法可以解决这个问题吗? 在此先感谢:)
【问题讨论】: