【问题标题】:extracting overlapping categories through machine learning通过机器学习提取重叠类别
【发布时间】:2014-12-01 07:11:56
【问题描述】:

我有一个我认为特殊的问题,我正在尝试获取可能重叠的产品属性。

在我的情况下,鉴于标题、制造商、描述,我需要知道产品是牛仔裤还是其他东西,更重要的是,它是紧身牛仔裤还是紧身牛仔裤或其他类型的牛仔裤。通过 sci-kit 练习,我似乎一次只能预测一个类别,这不适用于我的案例,有什么建议可以解决这个问题吗?

我现在的想法是为每个类别准备一个训练数据,例如: Jeans = ['desc of jeans 1', 'desc of jeans 2'] Skinny Jeans ['desc of skinny jeans 1', 'desc of skinny jeans 2'] 使用这些训练数据,我会询问给定未知产品的概率,并期望以匹配百分比作为回报: Unknown_Product_1 = { 'jeans': 93, 'skinny_jeans': 80, 't-shirt': 5 } 我离基地很远吗?如果这是一条正确的道路,如果是,我该如何实现?

谢谢!

【问题讨论】:

  • 这是分层分类。 scikit-learn 中没有对此的内置支持。您可以将其简化为多个分类问题,或单个多标签问题。

标签: python machine-learning scikit-learn classification


【解决方案1】:

您可能正在描述一项称为多标签学习或multi-label classification 的任务。

此任务与标准分类任务之间的主要区别在于,通过学习标签之间的关系,有时可以获得比训练许多独立的标准分类器更好的性能。

【讨论】:

  • +1。肯定是多标签分类。可能可以使用分类作为层次结构的知识。裤子/牛仔裤//紧身牛仔裤
  • 你是对的,它被称为多标签,这个 stackoverflow 真的很有帮助:stackoverflow.com/questions/10526579/…
猜你喜欢
  • 2012-10-31
  • 1970-01-01
  • 2016-03-15
  • 2014-07-04
  • 2021-05-12
  • 1970-01-01
  • 2020-05-04
  • 2013-05-04
  • 1970-01-01
相关资源
最近更新 更多