【问题标题】:Multiclass vs Multilabel多类与多标签
【发布时间】:2017-05-09 22:06:38
【问题描述】:

目前,我正在处理必须对餐厅评论数据进行分类的项目。我正在使用多项朴素贝叶斯算法。我有点困惑,我的问题与多类或多标签有关。

查看示例-

请像对待客户而不是狗一样对待您的客户。 .我永远不会去或建议任何人去 Naivedyam,Hauz Khas。他们是病人,完全是商人。食物味道很差,但是地方和工作人员太脏了

它包含三个不同的类

Bad Experience
Staff Behavior
food quality

如何创建训练数据集?

我应该使用多标签并创建训练数据集吗

ID Content                    Tags
1, "content of the review#1", Bad Experience,Staff Behavior,food quality

像在多类中一样

 Review          Tags
above review, Bad Experience
above review, Staff Behavior
above review, food quality

任何建议

【问题讨论】:

  • 我相信一个好的方法是每个x 方法的多标签。也就是说,对于每条评论x,都有标签y,其中y 是带有n 元素的向量(n 是标签的数量)。 y 的值是 0 和 1(一个用于每个样本的正确标签)。

标签: python analytics multilabel-classification multiclass-classification


【解决方案1】:

您的问题是multilabel classification 示例。

一种方法是将每个输出响应视为一个单独的二元分类问题

   X           Y1    Y2 
0  1.438161    0     1
1 -0.283780    1     1
2  0.552564    1     0
3  1.931332    0     1
4  1.656010    0     1
5  0.944862    1     0

其中 Y1、Y2 是“不良体验”或“员工行为”是否发生的单热编码。

您可以在scikit-learn documentation 中找到多标签分类的计算示例。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-03-07
    • 2020-01-14
    • 2019-12-01
    • 1970-01-01
    • 2019-04-01
    • 2016-06-14
    • 2018-05-25
    相关资源
    最近更新 更多