【问题标题】:EMAILS CLUSTERING [closed]电子邮件集群[关闭]
【发布时间】:2021-05-28 20:44:41
【问题描述】:

我有电子邮件数据(first_name、last_name、email、username、email_domain),我想根据其文本对电子邮件进行聚类,以便将相似的电子邮件聚集在一起,也可以将相似的名称聚集在一起。我想做的是在 email_domain 上应用文本预处理并训练 KMeans 算法。我走对了吗? 谢谢。

【问题讨论】:

    标签: python machine-learning cluster-analysis


    【解决方案1】:

    这是一种方法,但它是否是最好的方法取决于问题。

    你如何进行文本预处理比你使用什么聚类算法更重要。从文本到向量空间的映射决定了两封电子邮件相似的含义。聚类算法只是将最相似的那些分组。 (顺便说一句,我认为电子邮件 text 将是一个比域更有用的集群。) 有很多选项可以将任意文本映射到单个向量上。几篇论文让您入门:Latent Dirichlet Allocation(θ 向量将是您想要的),Paragraph Vectors

    如果您知道需要多少个集群,K-Means 是一个合理的选择。在决定您希望集群算法具有哪些属性时,scikit-learn page on clustering 是一个有用的资源。它显示了具有各种形状的数据集,以及通过各种算法从每个数据集中提取的集群。

    【讨论】:

      猜你喜欢
      • 2018-12-06
      • 2011-01-19
      • 2019-02-20
      • 2014-02-11
      • 2012-05-23
      • 2012-11-29
      • 2013-02-23
      • 2013-08-06
      • 2013-11-05
      相关资源
      最近更新 更多