【问题标题】:Dask in-place replacement of pandas?Dask就地更换熊猫?
【发布时间】:2017-05-07 03:37:36
【问题描述】:

我想知道是否可以使用 dask 代替 pandas。我可能会遇到什么问题?

1) 对于较小的数据集,我猜 dask 会比 pandas 慢。我可以接受,因为有时我不知道数据的大小,也不知道服务器配置。

2) 我将不得不学习稍微不同的语法(例如计算)

我是否会面临 dask 数据帧不能做 pandas 数据帧可以做的事情的情况?

【问题讨论】:

    标签: dask


    【解决方案1】:

    这是一个非常广泛的问题。一般来说,我建议参考dask.dataframe documentation

    Dask.dataframe 没有实现所有的 pandas。这包括以下几种操作:

    1. 变异操作
    2. 难以完全并行执行的运算,例如中位数,(尽管通常存在近似解,例如近似分位数)
    3. 遍历数据帧的行
    4. API 的小角落,没人费心去复制。

    但是,由于 dask 数据帧只是许多小型数据帧的集合,因此您通常可以在简单的情况下绕过其中的一些限制。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-12-20
      • 2019-03-15
      • 2017-10-09
      • 2018-04-25
      • 1970-01-01
      相关资源
      最近更新 更多