【发布时间】:2014-04-16 06:22:19
【问题描述】:
我使用RandomForestClassifier 进行概率预测任务。我有大约 50 个功能和两个可能的标签的功能集 - first team wins 和 second team wins。
该功能集包含两个团队的功能,以及我构建它的方式,因为我知道哪支球队获胜,50% 的集合标记为第一队获胜,50% 标记为第二队获胜 - 具有各自的功能放置在特征集中的正确位置 - 对于训练数据中的每场比赛,最初将获胜球队作为第一个,我交换每个球队的特征并将标签更改为second team wins,使用计数器模2。
我看到的问题是,如果我将计数器更改为从 1 或 0 开始,最终预测会发生巨大变化,这意味着数据集是不对称的。为了解决这个问题,我尝试将每个匹配项按正常顺序添加两次,其中标签为 first team wins ,并反转为标签为 second team wins。问题是——这如何影响模型的行为?在进行此更改后,我看到了一些负面影响,尽管不足以在统计上显着。然而,它确实增加了构建特征集和拟合模型的运行时间。
随机化标签和团队顺序会是一种更可靠的方法吗?我有什么选择?
【问题讨论】:
-
你能和我们分享一些你的代码吗?
-
@Bach - 提供用于复制的最小代码示例会很困难..
标签: python classification scikit-learn prediction