电子邮件集群[关闭]答案

【问题标题】：EMAILS CLUSTERING [closed]电子邮件集群[关闭]
【发布时间】：2021-05-28 20:44:41
【问题描述】：

我有电子邮件数据（first_name、last_name、email、username、email_domain），我想根据其文本对电子邮件进行聚类，以便将相似的电子邮件聚集在一起，也可以将相似的名称聚集在一起。我想做的是在 email_domain 上应用文本预处理并训练 KMeans 算法。我走对了吗？谢谢。

【问题讨论】：

标签： python machine-learning cluster-analysis

【解决方案1】：

这是一种方法，但它是否是最好的方法取决于问题。

你如何进行文本预处理比你使用什么聚类算法更重要。从文本到向量空间的映射决定了两封电子邮件相似的含义。聚类算法只是将最相似的那些分组。（顺便说一句，我认为电子邮件 text 将是一个比域更有用的集群。）有很多选项可以将任意文本映射到单个向量上。几篇论文让您入门：Latent Dirichlet Allocation（θ 向量将是您想要的），Paragraph Vectors。

如果您知道需要多少个集群，K-Means 是一个合理的选择。在决定您希望集群算法具有哪些属性时，scikit-learn page on clustering 是一个有用的资源。它显示了具有各种形状的数据集，以及通过各种算法从每个数据集中提取的集群。

【讨论】：