【问题标题】:Remove na row index from PySpark DataFrame从 PySpark DataFrame 中删除 na 行索引
【发布时间】:2020-03-13 14:53:35
【问题描述】:

我无法删除第一行。

【问题讨论】:

  • 您对 spark 数据框或 pandas 数据框有疑问吗?
  • 这是 spark 数据框。
  • spark.apache.org/docs/latest/api/python/…,您可以使用how=any,并将所有列子集,除了供应商ID,因为它有\r。
  • 对,我还有一个替代解决方案来摆脱整行,ddf = ddf.where(ddf['VendorId']!='\r')
  • @palash 如果您确定要删除的唯一行将“\r”作为供应商 ID,则它是有效的。通用解决方案将 dropna 与 how=all 和 subset=all 列一起使用,除了 vendorid

标签: pyspark pyspark-dataframes


【解决方案1】:

除了使用 where 子句的解决方案之外,您也可以使用这些解决方案。你的只会用\r过滤掉vendorID,这些会过滤掉所有其他列中所有没有的行,不管你有什么作为VendorID

过滤器:

df.filter((' or '.join([''+x+' is not null' for x in df.columns if x !='VendorID'])))

Dropna:

df.dropna(how='all', subset=[x for x in df.columns if x!='VendorID'])

【讨论】:

    猜你喜欢
    • 2023-04-05
    • 2017-05-28
    • 1970-01-01
    • 2021-01-01
    • 2016-03-22
    • 1970-01-01
    • 2018-07-04
    • 1970-01-01
    • 2019-04-22
    相关资源
    最近更新 更多