斯坦福 NER 工具——新领域的训练答案

【问题标题】：Stanford NER Tool -- training for a new domain斯坦福 NER 工具——新领域的训练
【发布时间】：2015-11-23 17:35:20
【问题描述】：

对于像餐厅（餐厅名称、地址、美食）或音乐（艺术家姓名、歌曲名称类型）这样的领域，有效训练 CRF 所需的句子数量是多少。

【问题讨论】：

【解决方案1】：

作为参考，我相信（位置、组织、人员、其他）NER 的 CoNLL 训练数据大约有 14,000 个句子。

【讨论】：

【解决方案2】：

这取决于您要标记的数据类型以及它的可变性。我曾参与过一个涉及餐厅和音乐领域的项目。在我的例子中，我们将处理用户查询，这些查询往往很短，并且不会呈现出太多的可变性（特别是对于餐厅，但对于音乐，这是一个非常嘈杂的领域）。对于餐厅领域，用大约 2k 句训练它就可以了，但当然，如果你能获得更多数据，你的模型会更加准确。

对于音乐，情况有点棘手，因为歌曲/乐队名称几乎可以是任何东西。在这种情况下，仅靠数据可能不足以获得可接受的准确性。在我的项目中，我们使用了大约 5k 的音乐和许多功能以及一些额外的后期处理来让事情变得正确。

【讨论】：