【发布时间】:2017-05-10 15:30:38
【问题描述】:
我使用 Spark graphX 创建了一个图,其中每个顶点都直接连接到图的每个其他顶点,即 完整图。 请如果有人可以针对这种情况提出好的分区策略或任何想法来实施自定义分区策略。
我有 100 万个顶点和 5 亿条边。
任何与此相关的想法或建议将不胜感激。 提前致谢。
【问题讨论】:
标签: java scala apache-spark pyspark spark-graphx
我使用 Spark graphX 创建了一个图,其中每个顶点都直接连接到图的每个其他顶点,即 完整图。 请如果有人可以针对这种情况提出好的分区策略或任何想法来实施自定义分区策略。
我有 100 万个顶点和 5 亿条边。
任何与此相关的想法或建议将不胜感激。 提前致谢。
【问题讨论】:
标签: java scala apache-spark pyspark spark-graphx
如果你有一个完整的图,你就不必关心复杂的分区算法。就拿GraphX已经实现的随机分区方法吧。
如果你有 n 个图顶点和 k 个分区,任何balanced (edge-cut) partitioning strategy 都会为每个分区分配大约 n/k 个顶点,这会导致每个分区的 (n-n/k) 个出边到其他分区:每个顶点相互连接顶点在其他分区上。
【讨论】: