比较两个产品大数据集答案

【问题标题】：Compare two products big data set比较两个产品大数据集
【发布时间】：2019-12-31 13:46:24
【问题描述】：

我有两个不同的产品数据，分别是 540 万和 450 万产品，它们是从竞争对手网站抓取。大多数产品是没有任何独特标准 SKU 的非品牌产品。我想将 300K 产品数据与我们竞争对手正在销售的类似产品进行比较，并想找出价格差异。

我已经厌倦了使用具有相似词的两个不同 sphinx 比较数据集，但由于标题与具有标准品牌名称、标题或 SKU 的非品牌产品不相似，因此无法找到好的结果

有没有什么方法可以使用机器学习或一些大数据算法得到结果？

【问题讨论】：

唯一想到的是github.com/dedupeio/csvdedupe，即试图在两个数据集中查找重复项
仅供参考，它是 scrape（和 scraping、scraper、scraped）不是废品。 “废弃”的意思是像垃圾一样扔掉。

【解决方案1】：

如果您使用 Sphinx/Manticore，您可以：

还有一些额外的技巧可以提供帮助，例如：

这个互动课程中描述了查找相似内容的技巧和概念 - https://play.manticoresearch.com/mlt/

【讨论】：