【发布时间】:2020-06-18 02:37:17
【问题描述】:
我正在尝试从所有列中删除所有特殊字符。我正在使用以下命令:
import pyspark.sql.functions as F
df_spark = spark_df.select([F.col(col).alias(col.replace(' ', '_')) for col in df.columns])
df_spark1 = df_spark.select([F.col(col).alias(col.replace('%', '_')) for col in df_spark.columns])
df_spark = df_spark1.select([F.col(col).alias(col.replace(',', '_')) for col in df_spark1.columns])
df_spark1 = df_spark.select([F.col(col).alias(col.replace('(', '_')) for col in df_spark.columns])
df_spark2 = df_spark1.select([F.col(col).alias(col.replace(')', '_')) for col in df_spark1.columns])
有没有一种更简单的方法可以在一个命令中替换所有特殊字符(不仅仅是上面的 5 个)?我在 Databricks 上使用 PySpark。
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql special-characters str-replace