【发布时间】:2021-05-28 20:44:41
【问题描述】:
我有电子邮件数据(first_name、last_name、email、username、email_domain),我想根据其文本对电子邮件进行聚类,以便将相似的电子邮件聚集在一起,也可以将相似的名称聚集在一起。我想做的是在 email_domain 上应用文本预处理并训练 KMeans 算法。我走对了吗? 谢谢。
【问题讨论】:
标签: python machine-learning cluster-analysis
我有电子邮件数据(first_name、last_name、email、username、email_domain),我想根据其文本对电子邮件进行聚类,以便将相似的电子邮件聚集在一起,也可以将相似的名称聚集在一起。我想做的是在 email_domain 上应用文本预处理并训练 KMeans 算法。我走对了吗? 谢谢。
【问题讨论】:
标签: python machine-learning cluster-analysis
这是一种方法,但它是否是最好的方法取决于问题。
你如何进行文本预处理比你使用什么聚类算法更重要。从文本到向量空间的映射决定了两封电子邮件相似的含义。聚类算法只是将最相似的那些分组。 (顺便说一句,我认为电子邮件 text 将是一个比域更有用的集群。) 有很多选项可以将任意文本映射到单个向量上。几篇论文让您入门:Latent Dirichlet Allocation(θ 向量将是您想要的),Paragraph Vectors。
如果您知道需要多少个集群,K-Means 是一个合理的选择。在决定您希望集群算法具有哪些属性时,scikit-learn page on clustering 是一个有用的资源。它显示了具有各种形状的数据集,以及通过各种算法从每个数据集中提取的集群。
【讨论】: