【发布时间】:2017-01-21 16:08:42
【问题描述】:
假设我有这个文本 = I love apples, kiwis, oranges and bananas 和 searchString = kiwis and bananas 和 a similarity algorithm 说 Jaccard index。如何有效地找到text 中与searchString 相似度最高的子字符串。
基本上,我试图找到与我拥有的关键字列表匹配的部分文本(文本有很多错误、拼写错误、多余的符号和空格)。
【问题讨论】:
-
我对此不太了解,但此链接可能会有所帮助...stackoverflow.com/questions/5859561/…
-
@Dandy:我知道编辑距离。这个问题是要求给定字符串 S 和 T,找到 S 的一个子字符串,它与 T 具有最小的编辑距离(或任何其他相似性度量)。
-
@Dandy:感谢您的链接,但我知道最小编辑距离问题。不确定它如何应用于我的问题?您能否在下面详细说明您要说的内容?
标签: text machine-learning data-mining string-algorithm