【问题标题】:How to get the key value output from RDD in pyspark如何在pyspark中获取RDD的键值输出
【发布时间】:2016-10-17 04:31:53
【问题描述】:

以下是RDD:

[(8, [u'darkness']), (2, [u'in', u'of', u'of', u'of']),
(4, [u'book', u'form', u'void', u'upon', u'face', u'deep', u'upon', u'face'])]

我如何打印上面的键和值长度。

上面的输出应该是: (键,列表中的单词数)

(8,1) (2,4) (4,8)

【问题讨论】:

    标签: python pyspark rdd


    【解决方案1】:

    您可以使用map 函数来创建列表中的键和单词数的元组:

    data = sc.parallelize([(8, [u'darkness']), (2, [u'in', u'of', u'of', u'of']), (4, [u'book', u'form', u'void', u'upon', u'face', u'deep', u'upon', u'face'])])
    
    data.map(lambda x:tuple([x[0],len(x[1])])).collect()
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-01-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多