【发布时间】:2017-03-31 10:34:08
【问题描述】:
我有一个来自 scipy 的大型稀疏矩阵(300k x 100k,所有二进制值,大部分为零)。我想将此矩阵的行设置为 RDD,然后对这些行进行一些计算 - 在每一行上评估一个函数,在成对的行上评估函数等。
关键是它非常稀疏,我不想爆炸集群 - 我可以将行转换为 SparseVectors 吗?或者也许将整个东西转换为 SparseMatrix?
你能举一个例子,你读入一个稀疏数组,将行设置成一个 RDD,然后从这些行的笛卡尔积中计算一些东西吗?
【问题讨论】:
-
尝试使用pyspark。
-
@EliSadoff 我正在使用 pyspark,问题是我不知道要使用哪些对象或如何设置它们。
-
啊,我没有意识到这一点。我以为你想弄清楚如何从 python 到 scala。
标签: python numpy apache-spark scipy pyspark