【发布时间】:2020-05-27 16:01:31
【问题描述】:
我想遍历两个列表,将组合传递给一个函数,并得到以下输出:
ru = ['a', 'b', 'c']
ni = ['x', 'y', 'z']
def my_func(ru, ni):
print("{} + {}".format(ru, ni))
for i in ru:
for j in ni:
my_func(i,j)
# Output
a + x
a + y
a + z
b + x
b + y
b + z
c + x
c + y
c + z
由于这是 Pyspark,我想将它并行化,因为函数的每次迭代都可以独立运行。
注意:我的实际功能是 pyspark 中的一个很长的复杂算法。只是想发布一个简单的例子来概括。
最好的方法是什么?
【问题讨论】:
标签: pyspark parallel-processing apache-spark-sql pyspark-dataframes