【发布时间】:2021-04-25 16:43:51
【问题描述】:
我有一个庞大的数据集,每一行都有一些标题被,分隔。我想做两件事:
1- 删除,,如果它们彼此跟随。
2 - , 之间的字数。
例如,考虑以下两行:
column
hello, I am wondering/low,,, Going/hi, towards,, Host
winter, summer,,
预期输出:
column count
hello, I am wondering/low, Going/hi, towards, Host 5
winter, summer, 2
【问题讨论】:
-
是的,如果我有
,,我应该怎么做我想要,分隔的单词而不是空格。然后当我有,,时就会出现问题 -
使用
,分割而不是空格,并用单个逗号替换多个逗号 -
我不确定我有多少。所以使用替换是行不通的
-
@mck 是否有任何代码说明如果有多个
,后跟一个,则删除并保留一个?
标签: apache-spark pyspark apache-spark-sql pyspark-dataframes