【发布时间】:2015-09-09 14:03:11
【问题描述】:
我有大量有序的符号序列,数百万个符号。 我必须找到重复的有序子序列,这样:
- 搜索子序列未知,我必须找到在大序列的其他地方重复的子序列。
- 子序列可能存在差异,例如存在一定数量的噪声和不存在某些符号。
非必要条件:
- 子序列可能有少量的相邻符号排列。
字母表由数千个符号组成。
您能否为此类任务推荐知名且经过充分研究的算法?
【问题讨论】:
-
符号是如何排序的?
-
你有多少基本模式?
-
@igael,未定义。
-
@user3360241,顺序不是随机的,也不是排序的。
-
一些例子会有所帮助。例如,如果您有序列“abcdefgh
abcxefgh ”,您会认为 abcxefgh是abcdefgh的重复吗?毕竟,x可以被认为是噪音。abcefgh会被视为重复吗?只是缺少一个符号。您要查找的重复子序列有多长?您愿意容忍多少百分比的缺失符号或噪音?
标签: algorithm sequence data-mining dynamic-programming bioinformatics