【发布时间】:2020-12-07 15:41:09
【问题描述】:
我目前正在使用 Pandas 处理一个大型数据集,我必须使用 pandas.Series.str.extract 提取一些数据。
它看起来像这样:
df['output_col'] = df['input_col'].str.extract(r'.*"mytag": "(.*?)"', expand=False).str.upper()
但是,它运行良好,因为它必须执行大约十次(使用各种源列),性能不是很好。为了通过使用多个内核来提高性能,我想尝试 Dask,但它似乎不受支持(我在 dask 的文档中找不到对提取方法的任何引用)。
有没有办法并行执行这样的 Pandas 动作? 我找到了this method,你基本上将你的数据帧分成多个,为每个子帧创建一个进程,然后将它们连接回来。
【问题讨论】:
标签: pandas dask dask-dataframe