【发布时间】:2017-04-27 23:27:03
【问题描述】:
我基本上有两个文件 input1 和 input2(都是 List[string])。我想检查它们是否是彼此/相同的子字符串。所以,我有以下
Val conf = new SparkConf().setAppName (“check identical”)
Val sc = new SparkContext(conf)
val input 1 = sc.textFile(inputFile-L)
Val input 2 = sc.textFile(inputFile-M)
// split up words
val words1 = input1.flatMap(line=> line.split(""))
Val words2 = input2.flatMap(line=>line.split(""))
// Transform into word and count
val counts1 = words1.map(word => (word, reducebyKey{case(x,y) => x+y})
val counts2 = words2.map(word => (word, reducebyKey{case(x,y) => x+y})
通过上面,我确定字数是一样的,现在如何比较子集?有什么简单的方法可以采取吗?
【问题讨论】:
-
能否添加数据样本和预期结果?不确定在这种情况下“子集”/“子字符串”是什么意思
-
如果
(a diff b).isEmpty则 a 是 b 的子集 -
@LuigiPlinge 确定。但是看看这里如何使用子集和子串,就好像它们可以互换一样。子字符串需要排序。
-
我不认为示例代码能像你说的那样做。
标签: scala word-count