【发布时间】:2017-05-01 23:18:49
【问题描述】:
我有一个大型矩阵的大型目录,我正在对这些矩阵应用一些昂贵的操作。管道如下所示:
Directory -> extract matrices -> apply operations -> save in a .csv file
请注意,我将之前的“管道”包装到了一个函数中。到目前为止,使用 python 的多处理库,我能够在 1 周内应用之前的管道。但是,我很好奇是否有可能以 spark map-reduce 的方式“并行化”前一个函数。因此,我的任务可以用 pysparks map reduce 增强吗?如何提高速度? (我只有两台笔记本电脑),你们建议我在不修改功能的情况下提高管道速度的其他方法?
【问题讨论】:
-
在跳转到 Spark 之前尝试 Dask
标签: python hadoop mapreduce pyspark bigdata