【问题标题】:Category Matching - regex vs full text search类别匹配 - 正则表达式与全文搜索
【发布时间】:2012-04-18 15:34:24
【问题描述】:

我有一个相当大的类别表,其中包含 1500 个类别(一些单词其他包含多个),我正在寻找通过标题将新产品与这些类别匹配的最佳方法。

我一直在研究使用正则表达式并在产品描述中循环搜索关键词,但是当尝试一次添加超过一千个产品时这不会很有效,我也一直在研究全文搜索(FREETEXT 和包含)但 FreeText 搜索似乎会带回很多结果,因为它匹配产品描述中的任何和所有单词。

有没有人做过类似的事情,试图通过描述来自动化产品属于哪个类别,并且可以提供一些建议或指示?

【问题讨论】:

    标签: c# sql sql-server-2008


    【解决方案1】:

    所以我理解的问题是,给出一个描述告诉我这个描述适用于哪个类别?

    做这种工作的常用方法是建立一个Naive Bayesian Classification进程,把你所有的描述都放在这个里面。

    这样的分类通常分两个阶段进行。

    第 1 阶段:已知的描述/类别对用于“训练”分类器。

    第 2 阶段:分类器经过训练后,您可以为其提供未知数据,然后它会返回描述匹配给定类别的概率。

    这种方法中的分类器通常非常准确,但考虑到我们正在处理统计数据,错误通常会潜入

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-04-14
      • 2012-01-17
      • 1970-01-01
      • 2010-12-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多