【发布时间】:2018-06-15 08:40:41
【问题描述】:
我打算对电子邮件进行分类。我正在使用 tfidf 矢量化器和逻辑回归算法来做到这一点。我采用了非常小的训练和测试集。我的训练集包含 150 封电子邮件(3 个课程,50 封电子邮件/课程),测试集包含 6 封电子邮件。现在我的分类器正确预测了 6 个中的 4 个。现在我的疑问是,我可以告诉分类器该文档属于 X 类而不是 Y 类吗?如果是,这个过程叫什么?
谢谢。
【问题讨论】:
-
150/6 的训练/测试拆分是一个非常小的测试集。建议使用 150+6 条记录中的 70/30。所以重新分区。
标签: python text-classification