【发布时间】:2015-11-23 17:35:20
【问题描述】:
对于像餐厅(餐厅名称、地址、美食)或音乐(艺术家姓名、歌曲名称类型)这样的领域,有效训练 CRF 所需的句子数量是多少。
【问题讨论】:
标签: stanford-nlp
对于像餐厅(餐厅名称、地址、美食)或音乐(艺术家姓名、歌曲名称类型)这样的领域,有效训练 CRF 所需的句子数量是多少。
【问题讨论】:
标签: stanford-nlp
作为参考,我相信(位置、组织、人员、其他)NER 的 CoNLL 训练数据大约有 14,000 个句子。
【讨论】:
这取决于您要标记的数据类型以及它的可变性。我曾参与过一个涉及餐厅和音乐领域的项目。在我的例子中,我们将处理用户查询,这些查询往往很短,并且不会呈现出太多的可变性(特别是对于餐厅,但对于音乐,这是一个非常嘈杂的领域)。 对于餐厅领域,用大约 2k 句训练它就可以了,但当然,如果你能获得更多数据,你的模型会更加准确。
对于音乐,情况有点棘手,因为歌曲/乐队名称几乎可以是任何东西。在这种情况下,仅靠数据可能不足以获得可接受的准确性。在我的项目中,我们使用了大约 5k 的音乐和许多功能以及一些额外的后期处理来让事情变得正确。
【讨论】: