【发布时间】:2018-11-09 00:51:25
【问题描述】:
我想删除标点符号并在 RDD 中制作小写字母? 下面是我的数据集
l=sc.parallelize(["How are you","Hello\ then% you"\
,"I think he's fine+ COMING"])
我尝试了以下功能,但收到错误消息
punc='!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'
def lower_clean_str(x):
lowercased_str = x.lower()
clean_str = lowercased_str.translate(punc)
return clean_str
one_RDD = l.flatMap(lambda x: lower_clean_str(x).split())
one_RDD.collect()
但这给了我一个错误。可能是什么问题?我怎样才能解决这个问题? 谢谢。
【问题讨论】:
标签: pyspark lowercase punctuation