【发布时间】:2020-10-24 02:35:48
【问题描述】:
所以我有一个 RDD,其中包含字符串格式的单词和数字,我已经拆分并删除了标点符号和空格:
['Hi', 'today', 'is', 'a', 'great', 'day', 'to', 'gather', 'flowers', 'lets', 'collect', '50', 'Roses', '400', 'Tulips', 'and', '20', 'Sunflowers', 'today']
我想计算不同单词的数量并按字母和数字顺序对它们进行排序,以便输出如下所示:
(20, 1)
(50, 1)
(400, 1)
('Hi', 1)
('today, 2)
我尝试使用 sortby,但我怀疑因为数字是字符串,它仅按第一个数字排序,因此数字 400 在 50 之前。我该如何解决这个问题?
【问题讨论】:
标签: apache-spark pyspark rdd