【问题标题】:Compare two products big data set比较两个产品大数据集
【发布时间】:2019-12-31 13:46:24
【问题描述】:

我有两个不同的产品数据,分别是 540 万和 450 万产品,它们是从竞争对手网站抓取。大多数产品是没有任何独特标准 SKU 的非品牌产品。我想将 300K 产品数据与我们竞争对手正在销售的类似产品进行比较,并想找出价格差异。

我已经厌倦了使用具有相似词的两个不同 sphinx 比较数据集,但由于标题与具有标准品牌名称、标题或 SKU 的非品牌产品不相似,因此无法找到好的结果

有没有什么方法可以使用机器学习或一些大数据算法得到结果?

【问题讨论】:

  • 唯一想到的是github.com/dedupeio/csvdedupe,即试图在两个数据集中查找重复项
  • 仅供参考,它是 scrape(和 scrapingscraperscraped)不是废品。 “废弃”的意思是像垃圾一样扔掉。

标签: python machine-learning sphinx


【解决方案1】:

如果您使用 Sphinx/Manticore,您可以:

  • 从数据集 1 中获取您的每个产品
  • 使用带百分位数和您选择的排名公式的仲裁运算符将其转换为查询
  • 对数据集 2 运行查询
  • 查找结果
  • 夺冠

还有一些额外的技巧可以提供帮助,例如:

  • IDF 提升
  • 跳过停用词
  • 使用基于 atc 的排名

这个互动课程中描述了查找相似内容的技巧和概念 - https://play.manticoresearch.com/mlt/

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-07-30
    • 2020-09-30
    • 1970-01-01
    • 2015-07-10
    • 2014-08-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多