模糊匹配 Informatica 与 SQL答案

【问题标题】：Fuzzy matching Informatica vs SQL模糊匹配 Informatica 与 SQL
【发布时间】：2014-10-15 06:38:12
【问题描述】：

我们目前正在讨论是在 SQL 中实现成对匹配函数来对发票参考号进行模糊匹配，还是继续使用 Informatica。

Informatica 是一个很好的解决方案（我听说过），但我不熟悉该软件。

有没有人体验过它的模糊匹配功能以及它相对于在 SQL 中构建某些逻辑可能提供的优势。

谢谢

【问题讨论】：

你试过SSIS中的模糊匹配吗？
No Zane，我们倾向于在 SQL 中的基本表上运行自定义匹配算法。系统流程中不会使用 SSIS。
您使用的是哪个 DBMS？

标签： sql matching informatica fuzzy-search deduplication

【解决方案1】：

可以在 Informatica 中使用解析器转换来完成这项工作。可以在 Informatica 中创建参考数据对象，这些对象将用于搜索您的给定字符串。参考数据对象有以下类型——模式集、概率模型、参考表、正则表达式、令牌集。 模式集 - 模式集包含识别数据模式的逻辑，例如从名称中分离出首字母。 概率模型 - 概率模型通过它们包含的信息类型和它们在输入字符串中的位置来识别标记。概率模型包含以下列：表示输入端口上数据的输入列。您使用来自输入端口的样本数据填充该列。该模型在解析和标记操作中使用样本数据作为参考数据。一个或多个标签列，用于标识每个输入字符串中的信息类型。您将列添加到模型中，并为每个字符串中的标记分配标签。使用标签列指示标记在字符串中的正确位置。当您在解析器转换中使用概率模型时，解析器会根据与值匹配的标签将每个输入值写入输出端口。例如，解析器将字符串“Franklin Delano Roosevelt”写入 FIRSTNAME、MIDDLENAME 和 LASTNAME 输出端口。即使端口数据未在模型中列出，解析器转换也可以推断输入端口数据值与模型数据值之间的匹配。这意味着概率模型不需要列出数据集中的每个标记来正确标记或解析数据集中的标记。转换使用概率或模糊逻辑来识别与概率模型中的标记匹配的标记。在编译概率模型时更新模糊逻辑规则。参考表 - 这是一个用于搜索的数据库表

【讨论】：

【解决方案2】：

您的数据似乎是非结构化的，您希望从中提取有意义的数据。如果您的数据遵循某种模式，则 Informatica DataTransformation(DT) 工具非常有用。它与 Informatica PowerCenter 中的 UDT 转换一起使用。使用 DT，您可以创建一个解析器来解析您的数据，并使用序列化程序将其写入您想要的任何形式，然后您可以使用 Informatica PowerCenter 的 ETL 功能对该数据进行聚合和其他转换。 DT 以其解析 PDF、表格和发票的能力而闻名。我希望它可以解决目的。

【讨论】：