【发布时间】:2018-03-20 15:30:09
【问题描述】:
需要从 rdd 中删除不可打印的字符。
示例数据如下
"@TSX•","None"
"@MJU•","None"
预期输出
@TSX,None
@MJU,None
尝试了下面的代码,但它不起作用
sqlContext.read.option("sep", ","). \
option("encoding", "ISO-8859-1"). \
option("mode", "PERMISSIVE").csv(<path>).rdd.map(lambda s: s.replace("\xe2",""))
【问题讨论】:
标签: apache-spark pyspark rdd