【发布时间】:2021-07-12 11:14:15
【问题描述】:
我是 python 新手,必须完成自然语言处理任务。 使用 kaggle 数据集,情感分类应该使用 python 来实现。 为此,我正在使用数据框和 LogisticRegression,如this article 中所述,一切正常。
现在我想知道是否可以对不在数据集中的另一个字符串进行分类,以便我可以交互地试验分类器。
这可能吗? 谢谢!
【问题讨论】:
标签: python scikit-learn nlp
我是 python 新手,必须完成自然语言处理任务。 使用 kaggle 数据集,情感分类应该使用 python 来实现。 为此,我正在使用数据框和 LogisticRegression,如this article 中所述,一切正常。
现在我想知道是否可以对不在数据集中的另一个字符串进行分类,以便我可以交互地试验分类器。
这可能吗? 谢谢!
【问题讨论】:
标签: python scikit-learn nlp
您必须手动对新数据运行所有预处理,而不是预测。
即:
首先(数据清理)和您调用的其他用于编辑数据的函数,
然后运行(创建一个词袋)部分,并且只有
然后使用拟合的 LR 模型对这个(预处理的)数据进行预测。
【讨论】:
是的,这是可能的。
为了使这更加模块化,您可以创建一个函数并将输入字符串传递给该函数进行预处理。这可以减少代码冗余。对于训练数据预处理,您也可以直接将数据传递给该函数。
完成后,您需要为测试句子创建词袋。
然后你可以对训练好的LR模型使用predict函数来预测输出。
谢谢。
【讨论】: