【发布时间】:2020-05-14 08:46:20
【问题描述】:
我正在从大约 50 列的 csv 文件中读取数据,其中很少的列(4 到 5)包含具有非 ASCII 字符和特殊字符的文本数据。
df = spark.read.csv(path, header=True, schema=availSchema)
我正在尝试删除所有非 Ascii 和特殊字符并仅保留英文字符,我尝试按如下方式进行操作
df = df['textcolumn'].str.encode('ascii', 'ignore').str.decode('ascii')
我的列名中没有空格。我收到一个错误
TypeError: 'Column' object is not callable
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<command-1486957561378215> in <module>
----> 1 InvFilteredDF = InvFilteredDF['SearchResultDescription'].str.encode('ascii', 'ignore').str.decode('ascii')
TypeError: 'Column' object is not callable
是否有替代方法来完成此操作,感谢任何帮助。
【问题讨论】:
-
我的解决方案有效吗?
-
@RahulP:像宝石一样工作。非常感谢。我赞成这个答案。我是大数据和火花的新手,向像你这样充满激情的人学习:)
-
欢迎来到大数据和火花,谢谢 :) 。如果您觉得答案正是您要找的,请您“接受”它吗?
标签: python pyspark apache-spark-sql pyspark-sql azure-databricks