从 PySpark DataFrame 中删除 na 行索引答案

【问题标题】：Remove na row index from PySpark DataFrame从 PySpark DataFrame 中删除 na 行索引
【发布时间】：2020-03-13 14:53:35
【问题描述】：

我无法删除第一行。

【问题讨论】：

您对 spark 数据框或 pandas 数据框有疑问吗？
这是 spark 数据框。
spark.apache.org/docs/latest/api/python/…，您可以使用how=any，并将所有列子集，除了供应商ID，因为它有\r。
对，我还有一个替代解决方案来摆脱整行，ddf = ddf.where(ddf['VendorId']!='\r')
@palash 如果您确定要删除的唯一行将“\r”作为供应商 ID，则它是有效的。通用解决方案将 dropna 与 how=all 和 subset=all 列一起使用，除了 vendorid

【解决方案1】：

除了使用 where 子句的解决方案之外，您也可以使用这些解决方案。你的只会用\r过滤掉vendorID，这些会过滤掉所有其他列中所有没有的行，不管你有什么作为VendorID

过滤器：

df.filter((' or '.join([''+x+' is not null' for x in df.columns if x !='VendorID'])))

Dropna：

df.dropna(how='all', subset=[x for x in df.columns if x!='VendorID'])

【讨论】：