【发布时间】:2021-01-10 14:05:33
【问题描述】:
我有一个非常大的数据集。我想知道如何从 pyspark 的大数据集中删除所有标点符号?例如, . & \ | - _
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql nlp punctuation
我有一个非常大的数据集。我想知道如何从 pyspark 的大数据集中删除所有标点符号?例如, . & \ | - _
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql nlp punctuation
您可以使用regexp_replace 删除您使用正则表达式指定的标点符号:
import pyspark.sql.functions as F
df2 = df.select(
[F.regexp_replace(col, r',|\.|&|\\|\||-|_', '').alias(col) for col in df.columns]
)
【讨论】:
||里面吗?
| 代表正则表达式中的“或”,例如,您可以将正则表达式与|word1|word2 连接起来。
df2.show()