【发布时间】:2023-03-05 10:58:02
【问题描述】:
我正在研究 pyspark 数据框,我有一列 words (array<string> type)。从单词中删除数值和数值的正则表达式模式应该是什么?
+---+----------------------------------------------+
|id | words |
+---+----------------------------------------------+
|564|[fhbgtrj5, 345gjhg, ghth578ghu, 5897, fhrfu44]|
+---+----------------------------------------------+
预期输出:
+---+----------------------------------------------+
|id |words |
+---+----------------------------------------------+
|564| [fhbgtrj, gjhg, ghthghu, fhrfu]|
+---+----------------------------------------------+
请帮忙。
【问题讨论】:
-
这能回答你的问题吗? Delete digits in Python (Regex)
-
@jbflow 感谢您的调查。您分享的参考文献肯定会删除数字,但另一个目的是防止字母数字使用字母
标签: python apache-spark pyspark apache-spark-sql