【发布时间】:2016-08-27 03:16:03
【问题描述】:
我实现了一个模型,在该模型中我使用逻辑回归作为分类器,我想绘制训练集和测试集的学习曲线,以决定下一步做什么来改进我的模型。
只是为了给你一些信息,为了绘制学习曲线,我定义了一个函数,它需要一个模型、一个预分割数据集(训练/测试 X 和 Y 数组,注意:使用 train_test_split 函数)、一个评分函数作为输入,并在 n 个指数间隔子集上迭代训练数据集并返回学习曲线。
我想知道为什么训练准确率开始这么高,然后突然下降,然后随着训练集大小的增加又开始上升?反之,对于测试的准确性。我认为准确度非常好,下降是因为一开始的小数据集产生了一些噪音,然后当数据集变得更加一致时,它开始上升,但我不确定。有人可以解释一下吗?
最后,我们是否可以假设这些结果意味着低方差/中等偏差(在我的上下文中 70% 的准确度还不错),因此为了改进我的模型,我必须求助于集成方法或极端特征工程?
【问题讨论】:
标签: python machine-learning scikit-learn classification logistic-regression