【问题标题】:How to do K-means with normalized TF-IDF如何用标准化的 TF-IDF 做 K-means
【发布时间】:2012-07-02 03:38:07
【问题描述】:

我在这里需要一些指导。我一直在尝试为我的项目标准化 TF-IDF 结果。所以,我在想TF-IDF 之后的下一步是什么?我想对那些标准化的 TF-IDF 进行 k-means 聚类,但 现在是时候了吗?在此之前,我使用 Lucene 创建了索引,如果可能,我不想使用 Mahout,因为我使用的是 Windows(也不想使用 cygwin)。

对于这些 lucene-ed 和 tf-idf-ed 结果做什么(以及如何)做 k-means 有任何建议?我在这里迷路了..

【问题讨论】:

  • 你到底想达到什么目的。聚类结果?还是别的什么?
  • 是的,我想对结果进行聚类。那么结果应该在集群中,我们可以通过选择集群号来查看它们。任何代码示例或链接,我该怎么做?

标签: normalization cluster-analysis k-means tf-idf


【解决方案1】:

您需要研究 '''spherical k-means''',如:

  • 正则 k-means 与欧几里得距离相关
  • 正则 k-means 不适用于高维稀疏数据

【讨论】:

  • 好吧,我要说清楚;我只想使用原始的 k-means lloyd 算法,所以,现在我希望您的帮助建议我如何获得聚类结果。因为现在我的 lacturer 告诉我,我可以直接使用未标准化的 TF-IDF 进行聚类,但我不知道如何应用它。我已经得到了 double[][]matrix var up.. . 伙计们请给我指路...我迷路了
  • 那你为什么不问问你的讲师呢?我的意思是,你可以使用任何东西。您可以将 k-means 应用于 0 个向量。结果不会太有用恕我直言。
  • 您可以尝试使用非欧几里得距离的 k-means。它会运行,但它可能不会收敛,而是追逐它的尾巴。您可以将其应用于二进制数据,但看到非二进制中心和许多集群变为空,您应该不会感到惊讶。您可以将其应用于高维数据,例如 TF-IDF 向量,而忽略众所周知的维度诅咒
  • 哦,你的意思是欧几里得距离需要归一化向量吗?因为你建议我尝试使用非欧几里得距离。但我认为这是原始kmeans最著名的距离测量?感谢您的回复。
  • 没有。欧几里得距离需要几何空间。众所周知,它不适用于高维数据。这就是 k-means 设计的 距离。对于其他距离函数,mean 可能不会优化方差,因此它可能不会收敛(因此您不应该使用其他距离!)。向您的讲师询问 k-means 和其他距离!
猜你喜欢
  • 2012-07-02
  • 2020-09-08
  • 2013-08-16
  • 2020-01-11
  • 2019-11-14
  • 2018-01-25
  • 2020-09-27
  • 2012-08-28
  • 2013-10-12
相关资源
最近更新 更多