【发布时间】:2016-12-03 01:32:19
【问题描述】:
我正在运行一个随机森林分类模型,最初将数据分为训练 (80%) 和测试 (20%)。然而,预测有太多的误报,我认为这是因为训练数据中有太多的噪音,所以我决定用不同的方法拆分数据,这就是我的做法。
由于我认为高 False Positive 是由于训练数据中的噪声,我使训练数据具有相同数量的目标变量。例如,如果我有 10,000 行的数据并且目标变量是 8,000 (0) 和 2,000 (1),我的训练数据总共是 4,000 行,包括 2,000 (0) 和 2,000 (1),这样训练数据现在有更多信号。
当我尝试这种新的拆分方法时,它通过将 Recall Positive 从 14% 增加到 70% 来更好地预测。
如果我在这里做错了什么,我很想听听您的反馈。我担心我的训练数据是否有偏差。
【问题讨论】:
标签: machine-learning scikit-learn training-data confusion-matrix