【发布时间】:2021-12-01 16:36:13
【问题描述】:
我正在尝试使用 CoNLL 格式的数据集训练 SparkNLP NerCrfApproach 模型,该数据集具有产品实体(如 I-Prod、B-Prod 等)的自定义标签。但是,当使用经过训练的模型进行预测时,我只得到“O”作为所有标记的分配标签。当使用在 SparkNLP 研讨会示例中的 CoNLL 数据上训练的相同模型时,分类效果很好。
(参见https://github.com/JohnSnowLabs/spark-nlp-workshop/tree/master/jupyter/training/english/crf-ner)
所以,问题是:NerCrfApproach 是否依赖于 CoNLL 数据使用的 NER 标签的标准标签集?或者我可以将它用于任何自定义标签,如果可以,我是否需要以某种方式指定这些标签?我的假设是标签是从训练数据中推断出来的。
干杯, 马丁
更新:毕竟问题可能与标签无关。我尝试用 CoNLL 标准标签替换我的自定义标签,但仍然没有得到预期的分类结果。
【问题讨论】:
标签: named-entity-recognition johnsnowlabs-spark-nlp