【发布时间】:2015-04-30 18:14:19
【问题描述】:
我希望以某种方式使用 soundex 来标准化我的数据,因为有时某个列中会出现拼写错误。
例如,我有一列“City”,数据将以“Denver”、“Denver CO”或 Denvr 的形式出现。
有没有办法让“Denver”的所有变体自动更正为“Denver”?
【问题讨论】:
-
Soundex 是一个非常适合大多数文本的匹配工具。
-
您希望标准化您的数据。考虑好莱坞。好莱坞是一座城市,但它是一座虚荣的城市。首选城市是洛杉矶,但邮局将运送到好莱坞。没有什么可以标准化。
-
@billinkc 我真的不需要它很聪明,它只需要在几个字符消失时找到正确的匹配项。
-
原生 SSIS 方法是使用模糊查找。在幕后,它可能会使用高级匹配算法,如 Levenstein 距离、ngram 分析等。假设您有一组已知值,Fuzzy Lookup 将尝试根据您对精度的容忍度进行匹配。它是企业版功能,但在尝试实施之前请注意这一点。在 VS 中可以正常工作,因为它已获得许可,但在标准版和我 认为 BI 版 中会失败
标签: sql sql-server sql-server-2008 ssis views