【问题标题】:How to convert panda df to sparse df如何将熊猫df转换为稀疏df
【发布时间】:2020-01-03 20:23:20
【问题描述】:

我在数据框中有一个巨大的稀疏数据集,并且一直在使用 df.to_sparse 但它很快就会被弃用所以想切换到 pd.Series(pd.SparseArray()) 但不确定如何为整个数据框?

我的最终 df 是 100K 行和 49K 列,因此需要一种自动化方式。

【问题讨论】:

标签: python pandas sparse-matrix


【解决方案1】:

你可以试试这样的:

dtype = {key: pd.SparseDtype(df.dtypes[key].type, fill_value=df[key].value_counts().argmax()) for key in df.dtypes.keys()}

df = df.astype(dtype)

然后用df.sparse.density检查密度。

这将为每一列创建稀疏数据,将最频繁的值作为填充值。

(但不确定这是否是最好的方法)

【讨论】:

    猜你喜欢
    • 2018-10-05
    • 2016-08-26
    • 1970-01-01
    • 2021-08-18
    • 1970-01-01
    • 2021-12-14
    • 2020-09-04
    • 1970-01-01
    • 2021-10-31
    相关资源
    最近更新 更多