【问题标题】:Which classification model should I use for author attribution in machine learning?我应该使用哪种分类模型来进行机器学习中的作者归属?
【发布时间】:2020-06-13 02:47:21
【问题描述】:

我的目标是拥有一组由特定作者编写的文本和一个更大的未知文本测试集。我希望能够预测测试集中的每个文本(或类)是否由训练文本集的特定作者编写。我应该使用什么分类模型来实现这一点以及如何实现它?

【问题讨论】:

  • 数据中有多少作者和文本?您有作者提供的任何额外数据吗?一群作家有一种写作风格。根据这个假设,您可以将作者分成几个组,然后尝试将每个文本分类到这些组中。
  • 我有 1 位作者的文本数量未知。我应该使用什么模式?

标签: python-3.x machine-learning scikit-learn classification text-classification


【解决方案1】:

您可以使用逻辑回归模型。就算名字里有“回归”,也适用于分类。

如果某些词的使用对您的作者来说是典型的,您可以创建一个基于文本中词频率的模型:

  • 在应用模型之前,您需要从文本中创建数值。因此,您可以将标记分配给唯一的单词。
  • 您通过计算单词的频率来创建特征向量

Logistic regession model for text classification 包含执行这些步骤以得出电影评论判断的代码。

例如,如果需要考虑单词的顺序,则需要修改方法。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-12-16
    • 1970-01-01
    • 2021-11-23
    • 1970-01-01
    • 2015-07-07
    • 2019-11-08
    • 2020-02-12
    • 2020-10-10
    相关资源
    最近更新 更多