【发布时间】:2016-09-26 08:42:17
【问题描述】:
这些天我正在处理区分两个类别 A 和 B,我发现当类别 B 包含一些子类别 B1、B2、B3 时......
有时区分结果更适合显式标记 B1、B2、B3(子类别标签),但有时结果更适合收集子类别并仅标记 B。
换句话说,有时
y=[A, A, A, ..., B1, B1, ..., B2, B2, ... B3, B3, ...]
更好,但有时,
y=[A, A, A, ..., B, B, B, ...]
更好。
我天真地认为影响结果有两个影响:
- 案例 1 包含更多信息
- 案例2算法可以更专注于A和B的区分
但我不确定我的假设是否正确,有人知道吗?而在处理这种情况时,当有子类别时,您如何获得最佳结果?
【问题讨论】:
标签: machine-learning scikit-learn