【发布时间】:2014-04-22 12:59:21
【问题描述】:
进行数据清理过程(重复数据删除/匹配)的选项有哪些 处理 MS SQL Server 2008 R2 时? 或者更好的是,我如何在一行的列上对匹配过程的分数进行加权? 情况如下:我的数据库中有一个persons 表,其他数据库表中有关联的地址和文档? 如何根据姓名、文件序列号和地址做出最佳匹配决定?据我了解,SSIS 模糊摸索不支持此功能:加权评分。
【问题讨论】:
-
您只想考虑 SQL Server 原生的解决方案吗?我在一家构建重复数据删除和匹配解决方案的公司工作,该解决方案将与 SQL Server 集成。
-
您应该查看第三方工具,或者考虑升级到 SQL Server 2012,它附带数据质量服务,因为除了 SQL Server 2008 R2 中的 SSIS 模糊组件之外没有其他本机选项。
-
感谢您的意见。我对互联网进行了深入研究,发现了这篇文章:blog.hoegaerden.be/2011/02/05/… 和另一篇 sqlservercentral.com/articles/Integration+Services+(SSIS)/71486
标签: sql-server-2008 weighted deduplication data-cleaning master-data-services