使用逻辑回归的文本分类

【问题标题】：text classification using logistic regression使用逻辑回归的文本分类
【发布时间】：2018-06-15 08:40:41
【问题描述】：

我打算对电子邮件进行分类。我正在使用 tfidf 矢量化器和逻辑回归算法来做到这一点。我采用了非常小的训练和测试集。我的训练集包含 150 封电子邮件（3 个课程，50 封电子邮件/课程），测试集包含 6 封电子邮件。现在我的分类器正确预测了 6 个中的 4 个。现在我的疑问是，我可以告诉分类器该文档属于 X 类而不是 Y 类吗？如果是，这个过程叫什么？

谢谢。

【问题讨论】：

150/6 的训练/测试拆分是一个非常小的测试集。建议使用 150+6 条记录中的 70/30。所以重新分区。

标签： python text-classification

【解决方案1】：

如果您有 3 个类别和标记数据并且已经训练了模型，那么您已经“告诉分类器”了所有可以（即训练）。

如果你说你想告诉分类器失败的 2/6 测试用例，那么逻辑回归是不可能的（也许是其他一些反馈模型？）。您需要的是更多地训练模型，或者添加更多测试用例。您可以将这 2 个失败案例添加到训练中并尝试不同的测试数据。

您可能有一个欠拟合的模型，您可以尝试调整，但是通过我对与您的文本相似的文本所做的实验，使用有限的数据和仅 tf-idf 因为“模型”可能很难获得真正的高精度只是词频。

【讨论】：

谢谢，有点晚了。现在，我改变了我的训练数据。我在 kaggle 上找到了 enron 数据集。