【问题标题】:Spark GraphX - How can I read from a JSON file in Spark and create a graph from the data?Spark GraphX - 如何从 Spark 中的 JSON 文件中读取数据并根据数据创建图表?
【发布时间】:2015-11-26 20:06:39
【问题描述】:

我是 Spark 和 Scala 的新手,我正在尝试从 JSON 文件中读取一堆高音扬声器数据,并将其转换为一个顶点表示一条推文而边缘连接到推文的图,这是一个重新原始发布项目的推文。 到目前为止,我已经设法从 JSON 文件中读取并找出我的 RDD 的架构。 现在我相信我需要以某种方式从 SchemaRDD 对象中获取数据,并为顶点创建一个 RDD,为边缘创建一个 RDD。这是解决这个问题的方法还是有替代解决方案?任何帮助和建议将不胜感激。

【问题讨论】:

    标签: graph apache-spark rdd spark-graphx property-graph


    【解决方案1】:

    这真的取决于你的 json 文件。您需要解析 json 文件中的数据并根据解析的数据创建顶点和边。没有特定的方法来实现这一点,这完全取决于程序员。一种方法是创建一个顶点数组和边数组(再次基于解析的数据)并将它们并行化(创建 VertexRDD 和 EdgeRDD),然后创建您需要的图形。希望我能帮上忙。

    【讨论】:

    • 但是数组不是可以容纳大数据的RDD。如果我错了,请纠正我,我认为我不能创建一个说 100 万行的数组,对吗?如果是这种情况,那么数组可能不适用于大数据。
    • 是的,没错。不幸的是,您不能向 RDD 添加新元素。一种方法是,如果你不等待填充数组,而是每隔 n 次添加并行化它,然后将已经并行化的 RDD 与新的 RDD 合并。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-09-11
    • 1970-01-01
    • 1970-01-01
    • 2016-05-05
    相关资源
    最近更新 更多