【发布时间】:2017-05-07 03:37:36
【问题描述】:
我想知道是否可以使用 dask 代替 pandas。我可能会遇到什么问题?
1) 对于较小的数据集,我猜 dask 会比 pandas 慢。我可以接受,因为有时我不知道数据的大小,也不知道服务器配置。
2) 我将不得不学习稍微不同的语法(例如计算)
我是否会面临 dask 数据帧不能做 pandas 数据帧可以做的事情的情况?
【问题讨论】:
标签: dask
我想知道是否可以使用 dask 代替 pandas。我可能会遇到什么问题?
1) 对于较小的数据集,我猜 dask 会比 pandas 慢。我可以接受,因为有时我不知道数据的大小,也不知道服务器配置。
2) 我将不得不学习稍微不同的语法(例如计算)
我是否会面临 dask 数据帧不能做 pandas 数据帧可以做的事情的情况?
【问题讨论】:
标签: dask
这是一个非常广泛的问题。一般来说,我建议参考dask.dataframe documentation。
Dask.dataframe 没有实现所有的 pandas。这包括以下几种操作:
但是,由于 dask 数据帧只是许多小型数据帧的集合,因此您通常可以在简单的情况下绕过其中的一些限制。
【讨论】: