使用 BERT 等预训练模型进行文档分类答案

【问题标题】：Document classification using pretrained models like BERT使用 BERT 等预训练模型进行文档分类
【发布时间】：2021-05-13 14:44:15
【问题描述】：

我正在寻找对文档进行分类的方法。例如。我有一堆带有文本的文档，我想标记文档是否属于体育、食品、政治等。我可以为此使用 BERT（对于字数 > 500 的文档）还是有其他模型可以有效地完成这项任务？

【问题讨论】：

【解决方案1】：

BERT 的最大序列长度为 512 个标记（请注意，这通常远小于 500 个单词），因此您不能一次将整个文档输入到 BERT。如果您仍想将该模型用于此任务，我建议您

在这种情况下，您唯一需要做的修改是在 BERT 之上添加一个全连接层。

不过，这种方法可能相当昂贵。也可以将文本文档表示为词向量袋，然后在数据上训练分类器。如果你不熟悉 BOW，Wikipedia entry 是一个很好的起点。它可以作为各种分类器的特征向量，我建议你尝试SVM或kNN。

【讨论】：