【发布时间】:2017-03-31 21:12:15
【问题描述】:
我有一个如下所示的 RDD,其中键和值作为包含一些参数的列表列表。
(32719, [[[u'200.73.55.34', u'192.16.48.217', 0, 6, 10163, 443, 0], [u'177.207.76.243', u'192.16.58.8', 0, 6, 59575, 80, 0]])
(32897, [[[u'200.73.55.34', u'193.16.48.217', 0, 6, 10163, 443, 0], [u'167.207.76.243', u'194.16.58.8', 0, 6, 59575, 80, 0]])
我想创建一个具有如下行和列的数据框
32719, '200.73.55.34', u'192.16.48.217', 0, 6, 10163, 443, 0
32719, '177.207.76.243', u'192.16.58.8', 0, 6, 59575, 80, 0
32897, 200.73.55.34', u'193.16.48.217', 0, 6, 10163, 443, 0
或者只是一个包含所有值但按键分组的数据框。我该怎么做。
【问题讨论】:
标签: apache-spark pyspark spark-dataframe rdd