【发布时间】:2019-12-31 13:46:24
【问题描述】:
我有两个不同的产品数据,分别是 540 万和 450 万产品,它们是从竞争对手网站抓取。大多数产品是没有任何独特标准 SKU 的非品牌产品。我想将 300K 产品数据与我们竞争对手正在销售的类似产品进行比较,并想找出价格差异。
我已经厌倦了使用具有相似词的两个不同 sphinx 比较数据集,但由于标题与具有标准品牌名称、标题或 SKU 的非品牌产品不相似,因此无法找到好的结果
有没有什么方法可以使用机器学习或一些大数据算法得到结果?
【问题讨论】:
-
唯一想到的是github.com/dedupeio/csvdedupe,即试图在两个数据集中查找重复项
-
仅供参考,它是 scrape(和 scraping、scraper、scraped)不是废品。 “废弃”的意思是像垃圾一样扔掉。
标签: python machine-learning sphinx