【发布时间】:2024-07-01 10:15:01
【问题描述】:
我正在使用 pyspark 的 sha1() 函数来生成哈希码,有没有办法避免哈希码中出现零和字母“O”?我使用哈希码为我的数据生成唯一的 6 字符密钥。我需要它是散列,因为当数据发生变化时,我需要一个新的散列码和新的 6 个字符键。唯一的问题是当我从哈希中提取 6 个字符时,当数据导出到 CSV 时,前导零会被省略。任何帮助将不胜感激
【问题讨论】:
标签: database pandas pyspark hashcode
我正在使用 pyspark 的 sha1() 函数来生成哈希码,有没有办法避免哈希码中出现零和字母“O”?我使用哈希码为我的数据生成唯一的 6 字符密钥。我需要它是散列,因为当数据发生变化时,我需要一个新的散列码和新的 6 个字符键。唯一的问题是当我从哈希中提取 6 个字符时,当数据导出到 CSV 时,前导零会被省略。任何帮助将不胜感激
【问题讨论】:
标签: database pandas pyspark hashcode
只需调用 sha1(),然后用 G 替换每个零,用 H 替换每个 Oh
【讨论】:
添加到 JoelFan 的 -
如下使用regex_replace
from pyspark.sql.functions import *
newDf = df.withColumn('new_column_name', regexp_replace('column_name', 'character_to_replace', 'with_this'))
【讨论】: