通过机器学习提取重叠类别答案

【问题标题】：extracting overlapping categories through machine learning通过机器学习提取重叠类别
【发布时间】：2014-12-01 07:11:56
【问题描述】：

我有一个我认为特殊的问题，我正在尝试获取可能重叠的产品属性。

在我的情况下，鉴于标题、制造商、描述，我需要知道产品是牛仔裤还是其他东西，更重要的是，它是紧身牛仔裤还是紧身牛仔裤或其他类型的牛仔裤。通过 sci-kit 练习，我似乎一次只能预测一个类别，这不适用于我的案例，有什么建议可以解决这个问题吗？

我现在的想法是为每个类别准备一个训练数据，例如： Jeans = ['desc of jeans 1', 'desc of jeans 2'] Skinny Jeans ['desc of skinny jeans 1', 'desc of skinny jeans 2'] 使用这些训练数据，我会询问给定未知产品的概率，并期望以匹配百分比作为回报： Unknown_Product_1 = { 'jeans': 93, 'skinny_jeans': 80, 't-shirt': 5 } 我离基地很远吗？如果这是一条正确的道路，如果是，我该如何实现？

谢谢！

【问题讨论】：

这是分层分类。 scikit-learn 中没有对此的内置支持。您可以将其简化为多个分类问题，或单个多标签问题。

标签： python machine-learning scikit-learn classification

【解决方案1】：

您可能正在描述一项称为多标签学习或multi-label classification 的任务。

此任务与标准分类任务之间的主要区别在于，通过学习标签之间的关系，有时可以获得比训练许多独立的标准分类器更好的性能。

【讨论】：

+1。肯定是多标签分类。可能可以使用分类作为层次结构的知识。裤子/牛仔裤//紧身牛仔裤
你是对的，它被称为多标签，这个 stackoverflow 真的很有帮助：stackoverflow.com/questions/10526579/…