【问题标题】:Ignore columns that only contain missing values using pd.read_csv使用 pd.read_csv 忽略仅包含缺失值的列
【发布时间】:2020-08-14 13:30:03
【问题描述】:

我创建了一个使用 pd.read_csv 读取数据的应用程序。我们得到的一些数据集的列仅包含缺失值(空单元格)。有没有办法使用熊猫不将这些列加载到数据框中?由于数据集可能非常大,因此在预加载阶段忽略它们会更方便。

当然,我可以从 Excel 表中删除它们,但我的目标是使数据加载尽可能自动化。

【问题讨论】:

  • 这些空列总是在同一个位置吗?如果是这样,您可以使用usecols 参数。
  • 不,不幸的是它变化了
  • 如果最近的列不为空,您也可以逐列阅读,然后join他们。

标签: python pandas csv load


【解决方案1】:

您可以使用 pd.read_csv(file, keep_default_na=False)。所有的 NA 值都不会被加载,而是空行,所以这将节省内存。 有关更多详细信息,您可以阅读: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html.

【讨论】:

    猜你喜欢
    • 2018-07-22
    • 2020-11-25
    • 2020-08-11
    • 1970-01-01
    • 2022-12-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多