【发布时间】:2019-05-15 20:51:33
【问题描述】:
我有一个函数应该应用于某些数据框以进行一些计算。由于数据框非常大,旨在加快计算速度,我决定选择 Dask 进行并行 pandas 处理
我有以下代码: https://pastebin.com/Zh672Wei
主要问题在于以下几行:
crosses_data.apply((lambda row: calculate_vwap(row[0], row[1], row[2], vwap_data, row.name)), axis=1)
上面的代码有效。 相同的代码,但与 dask 并行失败,并出现错误“系列”对象没有属性“列”:
dd.from_pandas(crosses_data,npartitions=4).map_partitions(
lambda df : df.apply((lambda row: calculate_vwap(row[0], row[1], row[2], vwap_data, row.name)), axis=1)).\
compute(scheduler=get)
我使用 dask 的官方文档,这个错误现在真的很有意义。
【问题讨论】:
标签: python pandas parallel-processing dask