【发布时间】:2019-03-03 12:59:09
【问题描述】:
我有一个数据集,其中包含搜索词、总搜索计数和使用的总搜索短语。它是这样的:
Sno SearchWord TotalSearch TotalsearchPhrases
1 Ball-e 100 10
2 Apple 897 4
3 Deutsche 1500 21
4 Microsoft 981 7
5 Holochen 30 1
6 Kamazai 20 10
基本上,
- 总搜索量表示该公司被搜索的次数 一个月内
- 总搜索词组表示用于搜索的唯一词 为该公司(Due、dtsche、Duetch 等为 Deutsche 等)
我想将此包含 10000 多家公司的数据分为 4 类:
- 高总搜索和高总搜索短语使用
- 使用的总搜索量高而总搜索词组使用量低
- 使用的总搜索量低和总搜索量高
- 低总搜索和低总搜索短语使用
我在决定这 4 个标准的阈值时感到困惑,有没有一种方法可以利用机器学习使用聚类或其他方法自动分配阈值?
【问题讨论】:
标签: python machine-learning logic cluster-analysis data-science