【问题标题】:RDD Warning: Not enough space to cache rdd in memoryRDD 警告:没有足够的空间在内存中缓存 rdd
【发布时间】:2020-07-29 10:15:37
【问题描述】:

我正在尝试使用 pyspark 在图形框架上运行 PageRank 算法。但是,当我执行它时,程序会不停地运行,并且会收到以下警告:

代码如下:

vertices = sc.createDataFrame(lst_sent,['id', 'Sentence'])
edges = sc.createDataFrame(final_rdd,['src', 'dst','similarity'])
g = GraphFrame(vertices, edges)
g.vertices.show() 
g.edges.show()
g.degrees.show()
pr = g.pageRank(tol=0.000001)
pr.vertices.show()

【问题讨论】:

    标签: apache-spark pyspark pagerank graphframes


    【解决方案1】:

    如果其他人面临同样的问题,我找到了解决方案。使用 RDD 持久性解决了问题:

    rdd.persist(StorageLevel.MEMORY_AND_DISK)

    【讨论】:

      猜你喜欢
      • 2016-01-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多