【发布时间】:2013-05-18 18:36:37
【问题描述】:
我正在寻找一个允许智能比较两个字符串的库/类。充其量它会给出两个字符串相似程度的百分比。我正在比较公司名称,记录在不同存储库中的地址,因此名称中有许多拼写错误或不一致。
要比较的示例字符串:
"Good Company Ltd." vs. "GoodCompany"
"Baker Street 2" vs. "Baker Str. 2"
如果我得到相似百分比的结果,那么这可以作为此类数据智能合并的输入。
你知道任何允许这种智能字符串比较的好库吗?
【问题讨论】:
-
你能告诉我们你希望这两个字符串比较返回的百分比是多少吗?
-
"GreatOrgansiation"是否与"GoodCompany"有任何“相似之处”?你想比较意义吗?"accept"和"except"听起来相似但含义不同,它们有多相似?"country fair"和"equal and fair"或"four candles"和"fork handles"怎么样?是否有 NLP 的元素或者这是一个更简单的算法?您想要“意思相似”、“听起来相似”还是“看起来相似”? -
@Jodrell:我想用“看起来相似”的术语进行比较。公司名称或地址是通用名称,因此不会有不同的含义。差异可能是由于:拼写错误、快捷方式、省略的结尾(如 Ltd)、省略的空格等。
标签: c# string string-comparison