【问题标题】:clustering based on tags in python基于python中的标签的聚类
【发布时间】:2015-07-18 22:06:31
【问题描述】:

我有搜索系统,其中书籍被标记,每本书都标有一些标签。 前任。

book: tags
book1: u'NIPU', u'YPAM', u'AXEI', u'WJQT', u'SNUR', u'FJQV', u'UTMQ'
book2: u'NKEM', u'JAQQ', u'EFOY', u'DAGS', u'FJQV'
book3: u'YPAM', u'AXEI', u'WJQT', u'SNUR', u'FJQV', u'UTMQ', u'UJHA'
....
..
.

在这里,我有成千上万本带有不同标签的书。我正在寻找一些可以基于标签创建列表的集群机制。 示例:

tag: No of books

NIPU: 12390
FJQV: 2345
..
.
NIPU,FJQV: 1243
SNUR,UJHA: 2343
..
.
NIPU,FJQV,SNUR: 1290
..
.
EFOY,WJQT,FJQV,UTMQ: 1894
....
...
..
.
YPAM,AXEI,WJQT,SNUR,FJQV,UTMQ,UJHA: 1

任何指针都会很有帮助,我在 kmeans 上花了一些时间,但不知道如何在这种情况下使用它。

【问题讨论】:

  • 嗨!以前从未与 numpy 合作过,但到目前为止您尝试过什么。我可以建议制作一个字典并执行正常的二进制搜索,但这也会效率低下
  • 这些数据是什么格式的?到目前为止你写了什么代码?我不明白kmeans 对此有何意义——你能提供你的推理吗?
  • 这看起来像是一个经典的无监督学习案例(看en.wikipedia.org/wiki/Unsupervised_learning)。有很多方法。选择一个,尝试一下,然后发布一个更精确且面向编程的问题。 SO不是求指点的地方,查看stackoverflow.com/help/dont-ask

标签: python numpy scipy grouping cluster-analysis


【解决方案1】:

我认为 kmeans 在这种情况下不合适,因为您要在数据中寻找相等性,而不是相似性。看起来你想要找到的是频繁项集。这可能是一项计算要求高的任务,具体取决于数据的大小,但有一些技巧可以巧妙地查询搜索空间。

研究先验原理,特别是候选剪枝的 Fk-1 X Fk-1 方法。本书第6章为您提供指导:http://www-users.cs.umn.edu/~kumar/dmbook/index.php

【讨论】:

    【解决方案2】:

    你要求

    频繁项集挖掘

    (即频繁的标签,以及频繁的标签组合)

    不适用于聚类分析。 k-means 将让您无处可去 - 错误的工具解决了错误的问题。

    【讨论】:

      猜你喜欢
      • 2020-01-30
      • 2023-03-21
      • 2020-02-17
      • 2018-02-16
      • 2021-10-26
      • 1970-01-01
      • 1970-01-01
      • 2019-01-27
      • 2012-04-02
      相关资源
      最近更新 更多