基于两个变量的数据集分割成4个段答案

【问题标题】：Segmentation of data set based on two variables into 4 segments基于两个变量的数据集分割成4个段
【发布时间】：2019-03-03 12:59:09
【问题描述】：

我有一个数据集，其中包含搜索词、总搜索计数和使用的总搜索短语。它是这样的：

Sno        SearchWord        TotalSearch       TotalsearchPhrases
 1          Ball-e              100                  10
 2          Apple               897                  4
 3          Deutsche            1500                 21
 4          Microsoft           981                  7
 5          Holochen             30                  1
 6          Kamazai              20                  10

基本上，

总搜索量表示该公司被搜索的次数一个月内
总搜索词组表示用于搜索的唯一词为该公司（Due、dtsche、Duetch 等为 Deutsche 等）

我想将此包含 10000 多家公司的数据分为 4 类：

高总搜索和高总搜索短语使用
使用的总搜索量高而总搜索词组使用量低
使用的总搜索量低和总搜索量高
低总搜索和低总搜索短语使用

我在决定这 4 个标准的阈值时感到困惑，有没有一种方法可以利用机器学习使用聚类或其他方法自动分配阈值？

【问题讨论】：

标签： python machine-learning logic cluster-analysis data-science

【解决方案1】：

我相信这是可以做到的。根据您的问题，我假设您在问以下问题：

给定一个 n x 4 向量 [n, search word, total company search, total search word use]，您必须分为上面指定的 4 个类别。

为此，您必须构建一些子模块来分解问题。

第一个模块：分类器

您必须首先确定列表中唯一公司的数量。然后，您必须识别用于识别每个独特公司的常用搜索短语。为此，您需要构建一个监督学习分类器。

标签 = 公司

功能 = 输入到搜索栏

所以：标签 = f(Feature)

第二模块

然后您必须指定您认为的总搜索量和搜索词组的高低。您可以通过查找搜索短语或总搜索的平均值或中值轻松做到这一点。那么上面的所有公司都会在一个集群中，其余的将在其余的。

首先，通过查看哪些公司低于总搜索量中位数，将数据分成一半，一半高于中位数。然后对于每一半，然后将它们分成两半。这一次，由内侧总搜索词组使用。对于任何新数据，根据它们的总搜索量和总搜索词组将它们分配到适当的组。

这样，您可以获得 4 个独立的集群。此外，您可以在每 1000 个新数据点后重新运行聚类算法。因此，您的数据将始终得到妥善组织。

【讨论】：