【发布时间】:2019-12-17 07:46:11
【问题描述】:
我正在尝试对 rdd 中的单词进行分组和计数,这样如果单词以 s/ly 结尾,则将其计为同一个单词。
hi
yes
love
know
hi
knows
loves
lovely
预期输出:
hi 2
yes 1
love 3
know 2
这是我目前拥有的:
data.map(word=>(word,1)).reduceByKey((a,b)=>(a+b+).collect
感谢任何有关添加 s/ly 条件的帮助。
【问题讨论】:
-
其实你的问题是模棱两可的。如果一个单词以 s 或 ly 结尾,它应该被视为没有 s 或 ly 的确切单词?例如可爱应该算爱情吗?
-
添加了预期输出
标签: scala apache-spark apache-spark-sql rdd scala-collections