【问题标题】:Document clustering using Bag of Words approach使用词袋方法的文档聚类
【发布时间】:2015-11-22 14:04:47
【问题描述】:

我想使用词袋模型对我为 Google 学者搜索获得的文档进行聚类。我想使用 Java 作为语言。

应根据文档中存在的一组单词对文档进行聚类。例如,假设我有一组预定义的 10 个单词。我想根据其中定义的关键词的存在对谷歌搜索结果进行排名。 我必须使用像 k-means 算法这样的算法吗?我需要执行 NLP 任务吗?谁能告诉我执行此操作的步骤?

【问题讨论】:

  • 之所以叫explorative,是因为你需要尝试很多事情。

标签: java algorithm nlp cluster-analysis k-means


【解决方案1】:

NLP 用于在对数据进行分类之前对文本进行预处理。

预处理

  • POS(词性)、NE(命名实体)类型的特征提取
  • 句子解析
  • 文本标记化
  • 停用词删除

执行预处理后,您的数据就可以进行分类、聚类处理了。

现在您可以对该数据应用 k-mean 算法。

如果您不打扰数据处理,您可以直接在您的案例中应用 k-mean。

【讨论】:

  • 那么词袋模型是在哪个阶段应用的呢?
  • @dave: BOW 模型应用于分类器的训练阶段。根据过去的历史数据训练数据
  • 可以用一组词作为历史数据吗?
  • 对,可以用
猜你喜欢
  • 2016-02-16
  • 2019-02-28
  • 2015-02-15
  • 2018-02-09
  • 2019-01-14
  • 2017-05-28
  • 2017-12-06
  • 2016-08-28
  • 1970-01-01
相关资源
最近更新 更多