【发布时间】:2020-06-13 02:47:21
【问题描述】:
我的目标是拥有一组由特定作者编写的文本和一个更大的未知文本测试集。我希望能够预测测试集中的每个文本(或类)是否由训练文本集的特定作者编写。我应该使用什么分类模型来实现这一点以及如何实现它?
【问题讨论】:
-
数据中有多少作者和文本?您有作者提供的任何额外数据吗?一群作家有一种写作风格。根据这个假设,您可以将作者分成几个组,然后尝试将每个文本分类到这些组中。
-
我有 1 位作者的文本数量未知。我应该使用什么模式?
标签: python-3.x machine-learning scikit-learn classification text-classification