【发布时间】:2019-05-19 19:21:24
【问题描述】:
以下是要求-:
class MultiMachineDoWork:
def Function1(self, A, B):
return A+B
def Function2(self, A, B):
return A*B
def Function3(self, A, B):
return A**B
def Function4():
X = MultiMachineDoWork.Function1(5,10)
Y = MultiMachineDoWork.Function2(5,10)
Z = MultiMachineDoWork.Function3(5,10)
return X+Y+Z
假设 Function1、Function2 和 Function3 每个都需要很长时间,最好分别在机器 L、M 和 N 上并行运行它们在分布式模型上。 函数4可以运行在机器P上,机器P可以收集结果并合并。
MapReduce 工作在某种类似的概念上,但在数据的不同部分运行相同的功能... Dask / Ray / Celery 在这个案例研究中是否有用...
如果必须构建自定义解决方案,解决方案应该如何进行以及如何进行......
使用 Dask 本地集群的 Pydoop/Spark?
真实案例研究 - 用于 ML 分类的集成模型。一个用于 RandomForest 的函数,一个用于支持向量,一个用于 XGBoost。所有运行在同一个数据集上...
【问题讨论】:
-
真的很惊喜!!这个问题投了反对票..我想我是世界上唯一一个不知道这种微不足道的建筑问题的人....
-
正如您提到的 Pydoop,这里已经对 NN 训练进行了一定程度的实验:github.com/crs4/pydoop-examples/tree/master/examples/pydeep。这目前处于非活动状态,可能无法在下一个 Pydoop 版本中正常工作,但它应该提供一些有用的指针。
标签: python machine-learning distributed-computing