【发布时间】:2011-01-19 06:25:12
【问题描述】:
我很难找到符合我要求的字符串匹配算法。
我有一个非常大的非缩写形式的字符串数据库,需要与任意缩写匹配。一个字符串是一个实际的子字符串,其字符之间没有字母也应该匹配,并且得分更高。
示例:如果要匹配的单词是“download”,我搜索“down”,“ownl”,然后是“dl”,我会得到“down”的最高匹配分数,其次是“ownl”然后是“dl”。
算法必须针对速度和要搜索的大量字符串进行优化,并且应该允许我拉回匹配项字符串的列表(如果我同时添加了“下载”和“上传”到数据库,搜索“负载”应该返回两者)。内存仍然很重要,但不如速度重要。
有什么想法吗?我对其中一些算法进行了大量研究,但我还没有发现任何涉及缩写的算法,更不用说所有这些条件了!
【问题讨论】:
标签: string abbreviation acronym