【发布时间】:2021-06-25 08:20:21
【问题描述】:
对于主题建模,我正在尝试 BERTopic:Link
我在这里有点困惑,我正在我的自定义数据集上尝试 BERTopic。
由于 BERT 的训练方式使其具有文本/文档的语义含义,
在将文档传递到 BERTopic 之前,我是否应该删除停用词和词干/词形还原?
因为我担心这些停用词是否会作为突出的术语进入我的主题,而它们不是
请提出建议和建议!
【问题讨论】:
标签: python nlp bert-language-model topic-modeling