【问题标题】:text classification using logistic regression使用逻辑回归的文本分类
【发布时间】:2018-06-15 08:40:41
【问题描述】:

我打算对电子邮件进行分类。我正在使用 tfidf 矢量化器和逻辑回归算法来做到这一点。我采用了非常小的训练和测试集。我的训练集包含 150 封电子邮件(3 个课程,50 封电子邮件/课程),测试集包含 6 封电子邮件。现在我的分类器正确预测了 6 个中的 4 个。现在我的疑问是,我可以告诉分类器该文档属于 X 类而不是 Y 类吗?如果是,这个过程叫什么?

谢谢。

【问题讨论】:

  • 150/6 的训练/测试拆分是一个非常小的测试集。建议使用 150+6 条记录中的 70/30。所以重新分区。

标签: python text-classification


【解决方案1】:

如果您有 3 个类别和标记数据并且已经训练了模型,那么您已经“告诉分类器”了所有可以(即训练)。

如果你说你想告诉分类器失败的 2/6 测试用例,那么逻辑回归是不可能的(也许是其他一些反馈模型?)。您需要的是更多地训练模型,或者添加更多测试用例。您可以将这 2 个失败案例添加到训练中并尝试不同的测试数据。

您可能有一个欠拟合的模型,您可以尝试调整,但是通过我对与您的文本相似的文本所做的实验,使用有限的数据和仅 tf-idf 因为“模型”可能很难获得真正的高精度只是词频。

【讨论】:

  • 谢谢,有点晚了。现在,我改变了我的训练数据。我在 kaggle 上找到了 enron 数据集。
猜你喜欢
  • 2017-09-25
  • 2020-12-09
  • 2015-12-27
  • 2011-08-05
  • 2012-11-19
  • 2016-12-16
  • 1970-01-01
  • 1970-01-01
  • 2017-01-03
相关资源
最近更新 更多