如何从 pyspark 中的 Spark 数据框的列中删除引号“”答案

【问题标题】：How to remove quotes " " from a column of a Spark dataframe in pyspark如何从 pyspark 中的 Spark 数据框的列中删除引号“”
【发布时间】：2019-11-08 08:24:15
【问题描述】：

我有一个数据框。

+-------+-----+
|   Name|  age|
+-------+-----+
|  "aaa"|  111|
|"asasa"| 8888|
| "2323"|  999|
|"wewwe"|99999|
+-------+-----+

我希望它是这样的：

+-------+-----+
|   Name|  age|
+-------+-----+
|  aaa  |  111|
| asasa | 8888|
| 2323  |  999|
| wewwe |99999|
+-------+-----+

如何在 Spark 2 中使用 pyspark 代码实现这一点？

如果有解决办法，请回复。

【问题讨论】：

标签： apache-spark pyspark apache-spark-sql

【解决方案1】：

from pyspark.sql.functions import *
newDf = df.withColumn('Name', regexp_replace('Name', '"', ''))

快速解释：

调用函数 withColumn 向数据框中添加（或替换，如果名称存在）一列。
函数 regexp_replace 将通过替换与模式匹配的所有子字符串来生成一个新列。

【讨论】：

如果有多个列怎么办？