比较文件的方法有哪些答案

【问题标题】：what are methods for comparing documents比较文件的方法有哪些
【发布时间】：2017-04-18 06:47:10
【问题描述】：

最近我开始做一些关于标准化产品数据的研究。

超市经常以不同的价格出售相同的产品，比较这些价格很有用。为此，我们需要知道我们正在匹配每个超市的相同产品。问题是，超市在命名产品和在网站上列出产品的方式上往往存在细微差别。我们需要一个可以标准化产品名称的工具，将两个不同名称的产品识别为同一产品，同时成功识别不同但名称相似的产品以及数量上的差异。例如，我想购买 rasher，当你去搜索 rasher 时，我们将对所有 rasher 进行编码，即使名称不同并映射到 HS-codes ，我想知道这个过程背后的技术是什么？

此外，我们需要将这些产品的价格转换为标准单位，并使产品与世界贸易 HS 编码定义的组保持一致。假设 raser 的价格是每 180 克 2.99 欧元，但现在我想通过一些技术将其更改为每公斤 16.62 欧元，检查适当的自然语言技术以确定哪种方法最能实现这些目标。

【问题讨论】：

标签： machine-learning nlp

【解决方案1】：

这取决于标题的不同类型，但现在我将解释两种不同的类型：

1- 如果产品名称与前后词分开，那么您可以使用“Apache lucene”等工具“索引”产品名称，只需搜索产品名称，您将获得所有具有该名称的产品。

2- 如果产品名称带有后缀和前缀，那么您可以使用“编辑距离算法”来查找类似产品。

对于您问题的第二部分，您应该定义所有模式以捕捉重量、价值等方面的差异，然后将它们统一起来。

【讨论】：

对于产品名称匹配部分，我做了研究并询问了一些人，一些资料显示字符串相似测量和模式匹配（Knuth-Morris-Pratt字符串匹配算法，Brute Force，Rabin-Karp。）和模糊字符串匹配方法正在处理字符串匹配，我阅读了这些算法，但我认为这些对解决我的问题没有用。有人推荐贝叶斯过滤技术，无监督学习。老实说，我检查了贝叶斯过滤，它通常用于电子邮件。对于无监督的学习方法，还是一头雾水.....
大多数时候我们只是描述如何解决问题，并没有一个规则或方法命名
你能给我一些产品名称的例子，然后我会告诉你哪种方法更好。
例如，我想买可口可乐，但可乐有很多变种，比如百事可乐、健怡可乐、零可乐、可口可乐等，在这种情况下，哪种方法最能解决可口可乐的问题可乐聚类，因为字符串匹配方法在这里不起作用。
第二个例子，如果我去搜索“橙汁”，结果也可能显示“橙汁”，其实我们不想要橙汁，这里怎么解决问题跨度>