【问题标题】:How to remove quotes " " from a column of a Spark dataframe in pyspark如何从 pyspark 中的 Spark 数据框的列中删除引号“”
【发布时间】:2019-11-08 08:24:15
【问题描述】:

我有一个数据框。

+-------+-----+
|   Name|  age|
+-------+-----+
|  "aaa"|  111|
|"asasa"| 8888|
| "2323"|  999|
|"wewwe"|99999|
+-------+-----+

我希望它是这样的:

+-------+-----+
|   Name|  age|
+-------+-----+
|  aaa  |  111|
| asasa | 8888|
| 2323  |  999|
| wewwe |99999|
+-------+-----+

如何在 Spark 2 中使用 pyspark 代码实现这一点?

如果有解决办法,请回复。

【问题讨论】:

    标签: apache-spark pyspark apache-spark-sql


    【解决方案1】:
    from pyspark.sql.functions import *
    newDf = df.withColumn('Name', regexp_replace('Name', '"', ''))
    

    快速解释:

    • 调用函数 withColumn 向数据框中添加(或替换,如果名称存在)一列。
    • 函数 regexp_replace 将通过替换与模式匹配的所有子字符串来生成一个新列。

    【讨论】:

    • 如果有多个列怎么办?
    猜你喜欢
    • 1970-01-01
    • 2020-12-01
    • 2015-06-18
    • 1970-01-01
    • 2021-09-04
    • 2018-03-28
    • 1970-01-01
    • 1970-01-01
    • 2017-11-26
    相关资源
    最近更新 更多