【发布时间】:2020-10-30 06:15:03
【问题描述】:
我有成千上万个这样的元素:
[ "business_id_a", [ "Food", "Restaurant","Wine & Pizza"] ]
[ "business_id_b", ["Mexican", "Burgers", "Gastropubs & Wine" ] ]
...
[ "business_id_k", ["Automotive", "Delivery","Whatever"] ]
我想使用 k-means 按类别对主题进行分组来对 business_id 进行聚类。
也许这不是最好的选择。我的想法是创建一种类别字典,首先以任何方式对所有可能的类别进行分组,然后使用模型将样本按类别集群分组为 business_id 组。
这行得通吗?在 Python 中哪种方法最好?
【问题讨论】:
-
您能否详细说明数据,请针对示例 1..
-
另外,澄清类别是单个词还是多个词。这会影响解决方案的复杂性。
-
完成了,希望满意,如有不妥,请告诉我。对不起,伙计们。
标签: python scikit-learn nlp k-means