【问题标题】:how to solve this with kmeans clustering and use cosine similiraty如何使用 kmeans 聚类和使用余弦相似度来解决这个问题
【发布时间】:2013-05-06 09:26:15
【问题描述】:

谁能告诉我 k-means 聚类如何在文本挖掘中发挥作用。 我使用余弦相似度作为距离度量。

nim              310910022       320910044          310910043           310910021
access               0               2                  3                   5
abdi                 1               0                  0                   0 
actual               5               0                  0                   1
arrow                 0               1                 1                   2

此数据在列表视图中

如何在 VB.net 中做到这一点?获取该术语的任何集群和趋势主题?

提前致谢

【问题讨论】:

    标签: database listview k-means


    【解决方案1】:

    首先我将问题分为两部分:

    1. 计算 k-means 聚类分配
    2. 从 GUI 获取数据(您提到数据在列表视图中)

    我认为 2 是直截了当的,你只需要 1 的帮助。

    我将首先重写代码,以按照您的指定读取数据的 TSV 文本文件。这将使调试变得更容易。

    然后询问您是想自己实现kmeans算法还是使用库。 如果你想实现它,这里是伪代码的链接 http://www.scribd.com/doc/89373376/K-Means-Pseudocode 您还可以搜索其他 kmeans 伪代码。

    如果您想使用库仅针对 kmeans 算法“运行”您的数据,这里是 python/scipy 中的一个示例。 http://glowingpython.blogspot.com/2012/04/k-means-clustering-with-scipy.html

    无论您使用哪种方法,都要意识到 kmeans 是非确定性的,每次运行它时您可能会得到不同的答案。我建议对已知的验证集进行计算,以查看数据是否大致符合您的想法。

    【讨论】:

    • 我可以在 vb.net 上使用这个库吗?
    • 你可以在vb.net中重新编写伪代码,但是你不能在vb.net中轻松运行python库。为什么不将您的应用程序分成两部分:vb.net 中的 GUI 和 R 或 Python 中的计算集群部分?
    猜你喜欢
    • 2012-06-24
    • 2011-02-20
    • 2015-07-17
    • 2011-08-16
    • 2014-11-29
    • 2014-11-19
    • 1970-01-01
    • 2016-08-14
    • 1970-01-01
    相关资源
    最近更新 更多