【发布时间】:2015-07-18 22:06:31
【问题描述】:
我有搜索系统,其中书籍被标记,每本书都标有一些标签。 前任。
book: tags
book1: u'NIPU', u'YPAM', u'AXEI', u'WJQT', u'SNUR', u'FJQV', u'UTMQ'
book2: u'NKEM', u'JAQQ', u'EFOY', u'DAGS', u'FJQV'
book3: u'YPAM', u'AXEI', u'WJQT', u'SNUR', u'FJQV', u'UTMQ', u'UJHA'
....
..
.
在这里,我有成千上万本带有不同标签的书。我正在寻找一些可以基于标签创建列表的集群机制。 示例:
tag: No of books
NIPU: 12390
FJQV: 2345
..
.
NIPU,FJQV: 1243
SNUR,UJHA: 2343
..
.
NIPU,FJQV,SNUR: 1290
..
.
EFOY,WJQT,FJQV,UTMQ: 1894
....
...
..
.
YPAM,AXEI,WJQT,SNUR,FJQV,UTMQ,UJHA: 1
任何指针都会很有帮助,我在 kmeans 上花了一些时间,但不知道如何在这种情况下使用它。
【问题讨论】:
-
嗨!以前从未与 numpy 合作过,但到目前为止您尝试过什么。我可以建议制作一个字典并执行正常的二进制搜索,但这也会效率低下
-
这些数据是什么格式的?到目前为止你写了什么代码?我不明白
kmeans对此有何意义——你能提供你的推理吗? -
这看起来像是一个经典的无监督学习案例(看en.wikipedia.org/wiki/Unsupervised_learning)。有很多方法。选择一个,尝试一下,然后发布一个更精确且面向编程的问题。 SO不是求指点的地方,查看stackoverflow.com/help/dont-ask
标签: python numpy scipy grouping cluster-analysis