【发布时间】:2017-05-15 12:59:51
【问题描述】:
火花: 我有一个长度为 'n' (a1, a2,...ak,...an) 的顺序数据。我要表演fun(a1, a2,...a5), fun(a5,a6,...a9),......fun(an-4...an-2,an-1,an),其中fun是数学运算,独立应用于数据块。 我希望这些块应该并行执行。我是否可以为执行者(每个区块)提供开始和结束范围? [块大小可变但统一]。
【问题讨论】:
-
请更具体一些,分享数据、代码和输出。
标签: apache-spark mapreduce pyspark