【发布时间】:2014-12-01 07:11:56
【问题描述】:
我有一个我认为特殊的问题,我正在尝试获取可能重叠的产品属性。
在我的情况下,鉴于标题、制造商、描述,我需要知道产品是牛仔裤还是其他东西,更重要的是,它是紧身牛仔裤还是紧身牛仔裤或其他类型的牛仔裤。通过 sci-kit 练习,我似乎一次只能预测一个类别,这不适用于我的案例,有什么建议可以解决这个问题吗?
我现在的想法是为每个类别准备一个训练数据,例如:
Jeans = ['desc of jeans 1', 'desc of jeans 2']
Skinny Jeans ['desc of skinny jeans 1', 'desc of skinny jeans 2']
使用这些训练数据,我会询问给定未知产品的概率,并期望以匹配百分比作为回报:
Unknown_Product_1 = {
'jeans': 93,
'skinny_jeans': 80,
't-shirt': 5
}
我离基地很远吗?如果这是一条正确的道路,如果是,我该如何实现?
谢谢!
【问题讨论】:
-
这是分层分类。 scikit-learn 中没有对此的内置支持。您可以将其简化为多个分类问题,或单个多标签问题。
标签: python machine-learning scikit-learn classification