【发布时间】:2018-03-30 22:10:18
【问题描述】:
在 Spark 中使用 Python 2.7, 我有两个二维点列表。列表 A 有 n 个点,列表 B 有 m 个点。 每个点由 2 个元素(x 和 y 坐标)的列表表示:
set_a = [[x1, y1], [x2, y2], ..., [xn, yn]]
set_b = [[x1, y1], [x2, y2], ..., [xm, ym]]
我想构建一个n*m 矩阵M,其中通用元素M[i][j] 包含A 中的点与索引i 和 B 中索引为 j 的点。我不是在谈论欧几里得距离,但我有我的personal_distance_function(point_a, point_b),我想用它来构建M。
在纯 Python 2.7 中,我目前正在做这样的事情:
for i in range(len(A)):
for j in range(len(B)):
M[i, j] = personal_distance_function(A[i], B[j])
...但是由于我需要使用 pyspark 执行此操作,您对如何使用 SparkContext 执行此操作有什么建议吗?
【问题讨论】:
标签: python arrays apache-spark pyspark