【发布时间】:2018-04-08 00:59:53
【问题描述】:
我的句子是, “我好想把这个字符串去掉。” 我将此文本文件传递为
text = sc.textFile(...)
我想过滤掉(即删除)单词“string” 我注意到在 python 中,有一个“re”包。 我试过做
RDD.map(lambda x: x.replaceAll("<regular expression>", ""))
过滤掉“字符串”,但似乎 PySpark 中没有这样的功能,因为它给了我一个错误.. 如何导入“重新”包?或者是否有任何其他函数可以用来根据 PySpark 中的正则表达式删除/过滤掉某些字符串?
【问题讨论】:
标签: python apache-spark pyspark