基于python中的标签的聚类答案

【问题标题】：clustering based on tags in python基于python中的标签的聚类
【发布时间】：2015-07-18 22:06:31
【问题描述】：

我有搜索系统，其中书籍被标记，每本书都标有一些标签。前任。

book: tags
book1: u'NIPU', u'YPAM', u'AXEI', u'WJQT', u'SNUR', u'FJQV', u'UTMQ'
book2: u'NKEM', u'JAQQ', u'EFOY', u'DAGS', u'FJQV'
book3: u'YPAM', u'AXEI', u'WJQT', u'SNUR', u'FJQV', u'UTMQ', u'UJHA'
....
..
.

在这里，我有成千上万本带有不同标签的书。我正在寻找一些可以基于标签创建列表的集群机制。示例：

tag: No of books

NIPU: 12390
FJQV: 2345
..
.
NIPU,FJQV: 1243
SNUR,UJHA: 2343
..
.
NIPU,FJQV,SNUR: 1290
..
.
EFOY,WJQT,FJQV,UTMQ: 1894
....
...
..
.
YPAM,AXEI,WJQT,SNUR,FJQV,UTMQ,UJHA: 1

任何指针都会很有帮助，我在 kmeans 上花了一些时间，但不知道如何在这种情况下使用它。

【问题讨论】：

嗨！以前从未与 numpy 合作过，但到目前为止您尝试过什么。我可以建议制作一个字典并执行正常的二进制搜索，但这也会效率低下
这些数据是什么格式的？到目前为止你写了什么代码？我不明白kmeans 对此有何意义——你能提供你的推理吗？
这看起来像是一个经典的无监督学习案例（看en.wikipedia.org/wiki/Unsupervised_learning）。有很多方法。选择一个，尝试一下，然后发布一个更精确且面向编程的问题。 SO不是求指点的地方，查看stackoverflow.com/help/dont-ask

标签： python numpy scipy grouping cluster-analysis

【解决方案1】：

我认为 kmeans 在这种情况下不合适，因为您要在数据中寻找相等性，而不是相似性。看起来你想要找到的是频繁项集。这可能是一项计算要求高的任务，具体取决于数据的大小，但有一些技巧可以巧妙地查询搜索空间。

研究先验原理，特别是候选剪枝的 Fk-1 X Fk-1 方法。本书第6章为您提供指导：http://www-users.cs.umn.edu/~kumar/dmbook/index.php

【讨论】：

【解决方案2】：

你要求

频繁项集挖掘

（即频繁的标签，以及频繁的标签组合）

不适用于聚类分析。 k-means 将让您无处可去 - 错误的工具解决了错误的问题。

【讨论】：