【发布时间】:2020-11-28 07:46:44
【问题描述】:
我正在使用 pyspark,我有一个大数据框,其中只有一列值,其中每一行都是一长串字符:
col1
-------
'2020-11-20;id09;150.09,-20.02'
'2020-11-20;id44;151.78,-25.14'
'2020-11-20;id78;148.24,-22.67'
'2020-11-20;id55;149.77,-27.89'
...
...
...
我正在尝试提取“idxx”匹配字符串列表的数据帧行,例如 [“id01”、“id02”、“id22”、“id77”、...]。目前,我从数据框中提取行的方式是:
df.filter(df.col1.contains("id01") | df.col1.contains("id02") | df.col1.contains("id22") | ... )
有没有一种方法可以提高效率,而不必将每个字符串项都硬编码到过滤器函数中?
【问题讨论】:
标签: sql apache-spark pyspark apache-spark-sql