【发布时间】:2017-08-29 00:00:13
【问题描述】:
我正在对 dask 数据框应用多个操作。我可以为特定操作定义分布式工作器资源要求吗?
例如我称之为:
df.fillna(value="").map_partitions(...).map(...)
我想为 map_partitions() 指定资源要求(可能与 map() 的资源要求不同),但似乎该方法不接受 资源 参数。
PS。或者,我发现我可以在 map_partitions() 之后调用 client.persist() 并在此调用中指定资源,但这会立即触发计算。
【问题讨论】:
标签: dask dask-distributed