【问题标题】:what are methods for comparing documents比较文件的方法有哪些
【发布时间】:2017-04-18 06:47:10
【问题描述】:

最近我开始做一些关于标准化产品数据的研究。

超市经常以不同的价格出售相同的产品,比较这些价格很有用。为此,我们需要知道我们正在匹配每个超市的相同产品。问题是,超市在命名产品和在网站上列出产品的方式上往往存在细微差别。我们需要一个可以标准化产品名称的工具,将两个不同名称的产品识别为同一产品,同时成功识别不同但名称相似的产品以及数量上的差异。例如,我想购买 rasher,当你去搜索 rasher 时,我们将对所有 rasher 进行编码,即使名称不同并映射到 HS-codes ,我想知道这个过程背后的技术是什么?

此外,我们需要将这些产品的价格转换为标准单位,并使产品与世界贸易 HS 编码定义的组保持一致。假设 raser 的价格是每 180 克 2.99 欧元,但现在我想通过一些技术将其更改为每公斤 16.62 欧元,检查适当的自然语言技术以确定哪种方法最能实现这些目标。

【问题讨论】:

    标签: machine-learning nlp


    【解决方案1】:

    这取决于标题的不同类型,但现在我将解释两种不同的类型:

    1- 如果产品名称与前后词分开,那么您可以使用“Apache lucene”等工具“索引”产品名称,只需搜索产品名称,您将获得所有具有该名称的产品。

    2- 如果产品名称带有后缀和前缀,那么您可以使用“编辑距离算法”来查找类似产品。

    对于您问题的第二部分,您应该定义所有模式以捕捉重量、价值等方面的差异,然后将它们统一起来。

    【讨论】:

    • 对于产品名称匹配部分,我做了研究并询问了一些人,一些资料显示字符串相似测量和模式匹配(Knuth-Morris-Pratt字符串匹配算法,Brute Force,Rabin-Karp。 )和模糊字符串匹配方法正在处理字符串匹配,我阅读了这些算法,但我认为这些对解决我的问题没有用。有人推荐贝叶斯过滤技术,无监督学习。老实说,我检查了贝叶斯过滤,它通常用于电子邮件。对于无监督的学习方法,还是一头雾水.....
    • 大多数时候我们只是描述如何解决问题,并没有一个规则或方法命名
    • 你能给我一些产品名称的例子,然后我会告诉你哪种方法更好。
    • 例如,我想买可口可乐,但可乐有很多变种,比如百事可乐、健怡可乐、零可乐、可口可乐等,在这种情况下,哪种方法最能解决可口可乐的问题可乐聚类,因为字符串匹配方法在这里不起作用。
    • 第二个例子,如果我去搜索“橙汁”,结果也可能显示“橙汁”,其实我们不想要橙汁,这里怎么解决问题跨度>
    猜你喜欢
    • 1970-01-01
    • 2013-09-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-09-08
    • 2014-06-07
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多