【问题标题】:Python based multi-label Classification基于 Python 的多标签分类
【发布时间】:2018-02-16 21:15:33
【问题描述】:

我有一个如下所示的数据集,在实际场景中,行数在 10000 到 1000000 之间。 列会更多,但核心问题围绕这两个领域展开。

已知标签

我知道类别-'Apple'、'Blueberry'、'Orange'、'Lettuce'

数据集

 DataFrame
({'ROWID':1,2,3,4,5,6,7,8,9,10],
'Category':'Apple','Blueberry'.'Orange','Lettuce','Fruit','Salad','xyz','Fruit' 
,'Leaf','Avocado'],
'Details':['Eat one a day ,doctors keep away','Like it in a  muffin',
'Tastes yummy','Like it with 
salmon','Glass of a juice','Ceser dressing  on  lettuce','Nothing in my 
basket','Like it in a muffin','I like it  it with  salami','Comes from 
Mexico']}) 

问题:

我必须在类别上使用 groupby 创建一个或多个指标

当类别列具有未知单元格值时,我需要从“详细信息”中读取文本并预测最适合类别的标签。 例如

  • 沙拉 -> 生菜,水果(第 5 行)-> 橙子水果(第 8 行)-> 蓝莓 Leaf(Row#9)-> 'Lettuce' 据了解,有些行可以 不归类。

需要帮助:

我是数据科学算法的新手,正在寻找一些指导来确定解决问题的正确模型。

【问题讨论】:

    标签: python-3.x random-forest multilabel-classification


    【解决方案1】:

    对 Details 列使用朴素贝叶斯,在此之前对 Category 列进行简单过滤并删除具有已知类别值的行。

    【讨论】:

    • 能否分享一下相关代码,让答案有帮助。
    猜你喜欢
    • 2015-07-18
    • 2013-07-23
    • 2017-04-16
    • 2015-11-18
    • 1970-01-01
    • 2020-02-21
    • 2019-04-01
    • 2017-06-22
    相关资源
    最近更新 更多