【发布时间】:2020-06-30 17:03:51
【问题描述】:
如何修剪 PySpark 数据框中名称之间的额外空格?
下面是我的数据框
+----------------------+----------+
|name |account_id|
+----------------------+----------+
| abc xyz pqr | 1 |
| pqm rst | 2 |
+----------------------+----------+
我想要的输出
+-------------+----------+
|name |account_id|
+-------------+----------+
| abc xyz pqr | 1 |
| pqm rst | 2 |
+-------------+----------+
我尝试使用 regex_replace,但它完全修剪了空间。还有其他方法可以实现吗?非常感谢!
【问题讨论】:
-
如果您想用 1 个空格替换 1 个或多个空格,
regexp_replace(<your column>,\s+',' ')应该可以帮到您。s+表示一个或多个空格。 -
是的,得到了输出。感谢您的支持!
标签: apache-spark hadoop pyspark apache-spark-sql pyspark-dataframes