【发布时间】:2020-09-28 10:01:27
【问题描述】:
数据集:包含大约 1500 列数据的 Csv 文件,其中列 (Text,Labels) 其中 Text 是 尼泊尔语的新闻文章语言和标签是它的类型(健康、世界、旅游、天气)等等。
我正在使用Spacy 来训练我的文本分类模型。到目前为止,我已经将数据集转换为一个看起来像这样的数据框 然后通过代码变成一个spacy可接受的格式
dataset['tuples'] = dataset.apply(
lambda row: (row['Text'],row['Labels']), axis=1)
training_data = dataset['tuples'].tolist()
这给了我训练数据集中的元组列表,例如 [('text...','label...'),('text...','label...')]
现在,如何在这里进行文本分类?
在 spacy 的文档中,我发现
textcat.add_label("POSITIVE")
textcat.add_label("NEGATIVE")
我们必须根据标签添加标签还是应该使用正/负? spacy 是否在训练后根据我们的数据集生成标签?
有什么建议吗?
【问题讨论】:
标签: machine-learning classification spacy text-classification multilabel-classification