如何从文本中删除标点符号？

【问题标题】：How to remove punctuation from a text?如何从文本中删除标点符号？
【发布时间】：2021-01-10 14:05:33
【问题描述】：

我有一个非常大的数据集。我想知道如何从 pyspark 的大数据集中删除所有标点符号？例如, . & \ | - _

【问题讨论】：

标签： apache-spark pyspark apache-spark-sql nlp punctuation

【解决方案1】：

您可以使用regexp_replace 删除您使用正则表达式指定的标点符号：

import pyspark.sql.functions as F

df2 = df.select(
    [F.regexp_replace(col, r',|\.|&|\\|\||-|_', '').alias(col) for col in df.columns]
)

【讨论】：

你能告诉我你是怎么做这个标点的吗？我也想补充几句。我应该把它们放在||里面吗？
| 代表正则表达式中的“或”，例如，您可以将正则表达式与|word1|word2 连接起来。
应用此代码后我得到一个空的df2.show()
@Nagh 那么你的 df 可能是空的。
请在聊天中显示您的数据框和代码：chat.stackoverflow.com/rooms/227152/…

猜你喜欢

2013-11-19
2013-09-05
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2019-08-04
1970-01-01
1970-01-01

相关资源

下载 2023-03-28
下载 2022-12-28
下载 2021-06-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode