【发布时间】:2018-10-31 14:18:15
【问题描述】:
我有一个数字标识符列表,后跟一个或多个字符串。我想为每个标识符计算关联字符串的最长组合,这些字符串也存在于另一个标识符中。然后还有与每个标识符关联的字符串数。
例如
1 AAA BBBA ACA CCD ABADA
2 AAA ACA CCD
3 AAB BBAC DDAD
4 AAA ACA DDAD CCD
5 AAA ACA DDAD CCD
会导致:
ID Longest Combo Number of strings
1 3 5
2 3 3
3 1 3
4 4 4
5 4 4
为了清楚起见对结果的解释:
1 - AAA, ACA and CCD present in 2 so longest combo is 3.
2 - AAA, ACA and CCD present in 1 so longest combo is 3.
3 - DDAD present in 4 and 5 so longest combo is 1.
4 - AAA, ACA, DDAD and CCD present in 5 so longest combo is 4.
5 - AAA, ACA, DDAD and CCD present in 4 so longest combo is 4.
通常我可以尝试自己一起破解一些东西,但是用这个碰了壁 - 甚至不知道从哪里开始。达到这一点的分析是在 awk 中进行的,因此 bash 是理想的,但可能这是一项更适合 R 的工作?
我试图根据这个问题Frequency of each unique combination in data frame 格式化我的数据,但没有成功。
任何帮助将不胜感激。
大约有 3000 个标识符,每个标识符包含 1-15 个字符串。
【问题讨论】:
-
哇。当你问一个问题时,你会问一个doozie,doncha? XD
-
这个文件有多大?
-
只找到一个字符串,所以最长的组合是 1。对不起,我应该澄清最长的组合是字符串的数量而不是标识符。我已将文件的长度添加到原始文件中!
-
我想通了并删除了我的愚蠢问题。 :)