【发布时间】:2021-07-15 01:31:49
【问题描述】:
我有大型 spark 数据框 'df',(超过十亿行)由
meta_info | date | comment
我还有一个变量“lst”,它存储了我感兴趣的所有 id。
只保留 id 包含在 lst 中的行的方法是什么?
df.where("meta_info".isin(lst)).show()
这是我尝试过的,但它说“字符串”没有 isin
【问题讨论】:
-
meta_info是什么?您在数据框中没有该列。 -
Psidom,我的错。 id = meta_info,我把它弄混了,把自己弄糊涂了XD
-
df.where(df.meta_info.isin(lst))?您需要df.meta_info才能引用该列。
标签: python list dataframe apache-spark