【发布时间】:2015-12-03 22:36:31
【问题描述】:
我有 2 个英国邮政地址表(每个大约 300000 行),需要将一组与另一组匹配,以便返回每个地址的第一组中包含的唯一 ID。 问题是地址的格式和拼写有很多变化。 我编写了很多 t-sql 脚本来挑选东部匹配项(确切的邮政编码 + 门牌号 + 街道名称等),但仍有许多无法匹配的记录难以处理。我最终可能会拥有与异常一样多的 sql 脚本! 我已经逐字查看了 Levenstein 函数和排名,但这些方法也不可靠且存在问题。
有没有人做过类似工作的经验,你的方法和成功率是多少?
谢谢!
【问题讨论】:
-
您需要在问题中添加更多详细信息。首先,您拥有的代码可以匹配现有记录,然后是不匹配的记录样本。不过,可能仍有太多情况需要处理。
-
感谢您的回复。对于剩下的不匹配的集合,我认为有太多的变化需要以编程方式处理,需要通过物理检查来手动匹配。我想我只是想知道其他人在这种情况下使用了什么一般方法。
-
正如所写,这是一个商业问题,而不是编程问题。您甚至没有给出“难以处理”的数据的示例。添加示例数据、当前代码、当前结果和期望的结果,这将是一道编程题。
标签: sql-server