【问题标题】:How to remove punctuation from a text?如何从文本中删除标点符号?
【发布时间】:2021-01-10 14:05:33
【问题描述】:

我有一个非常大的数据集。我想知道如何从 pyspark 的大数据集中删除所有标点符号?例如, . & \ | - _

【问题讨论】:

    标签: apache-spark pyspark apache-spark-sql nlp punctuation


    【解决方案1】:

    您可以使用regexp_replace 删除您使用正则表达式指定的标点符号:

    import pyspark.sql.functions as F
    
    df2 = df.select(
        [F.regexp_replace(col, r',|\.|&|\\|\||-|_', '').alias(col) for col in df.columns]
    )
    

    【讨论】:

    • 你能告诉我你是怎么做这个标点的吗?我也想补充几句。我应该把它们放在||里面吗?
    • | 代表正则表达式中的“或”,例如,您可以将正则表达式与|word1|word2 连接起来。
    • 应用此代码后我得到一个空的df2.show()
    • @Nagh 那么你的 df 可能是空的。
    • 请在聊天中显示您的数据框和代码:chat.stackoverflow.com/rooms/227152/…
    猜你喜欢
    • 2013-11-19
    • 2013-09-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-08-04
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多