【发布时间】:2018-01-22 17:03:13
【问题描述】:
在去除停用词并在一组文档中应用词干提取过程后,我在 Javascript 中应用了二等分 K-means,以便对从某些网页接收到的一组文档进行聚类,以发现它们之间的相似性。
当有基于文本的集群时,找出应该创建多少集群的好方法应该是什么?我看到了一些方法,例如 Elbow、Silhouette 或信息标准方法,但假设我没有我创建的集群的任何信息,其他方法似乎更适合数字集群,而不是基于文本的集群。
entropy 能否成为在文本聚类中应用二等分 k-means 后帮助我找到正确数量的聚类的好方法?还是F-measure?我的意思是在达到某个值后停止划分集群?这些对大量数据有好处吗?
【问题讨论】:
-
在文本上,它们似乎都不能可靠地工作。
-
那怎么确定K的个数呢?在文本聚类中?有什么想法吗?
-
您有很多小文件还是一些长文件? - 同一个词多次出现是否表明相似度更高?还是仅仅是出现独特的单词很重要?
-
我有很多小文件。我认为相似性应该由同一个词的多次出现来给出。停用词(例如“the”、“a”和类似词)先前已被删除。很少使用的词应该更相关,但我如何识别它们?
-
在 Tweets 等小型文档上根本不起作用。
标签: javascript cluster-analysis