使用词袋方法的文档聚类

【问题标题】：Document clustering using Bag of Words approach使用词袋方法的文档聚类
【发布时间】：2015-11-22 14:04:47
【问题描述】：

我想使用词袋模型对我为 Google 学者搜索获得的文档进行聚类。我想使用 Java 作为语言。

应根据文档中存在的一组单词对文档进行聚类。例如，假设我有一组预定义的 10 个单词。我想根据其中定义的关键词的存在对谷歌搜索结果进行排名。我必须使用像 k-means 算法这样的算法吗？我需要执行 NLP 任务吗？谁能告诉我执行此操作的步骤？

【问题讨论】：

【解决方案1】：

NLP 用于在对数据进行分类之前对文本进行预处理。

预处理

执行预处理后，您的数据就可以进行分类、聚类处理了。

现在您可以对该数据应用 k-mean 算法。

如果您不打扰数据处理，您可以直接在您的案例中应用 k-mean。

【讨论】：