【问题标题】:Stanford NER Tool -- training for a new domain斯坦福 NER 工具——新领域的训练
【发布时间】:2015-11-23 17:35:20
【问题描述】:

对于像餐厅(餐厅名称、地址、美食)或音乐(艺术家姓名、歌曲名称类型)这样的领域,有效训练 CRF 所需的句子数量是多少。

【问题讨论】:

    标签: stanford-nlp


    【解决方案1】:

    作为参考,我相信(位置、组织、人员、其他)NER 的 CoNLL 训练数据大约有 14,000 个句子。

    【讨论】:

      【解决方案2】:

      这取决于您要标记的数据类型以及它的可变性。我曾参与过一个涉及餐厅和音乐领域的项目。在我的例子中,我们将处理用户查询,这些查询往往很短,并且不会呈现出太多的可变性(特别是对于餐厅,但对于音乐,这是一个非常嘈杂的领域)。 对于餐厅领域,用大约 2k 句训练它就可以了,但当然,如果你能获得更多数据,你的模型会更加准确。

      对于音乐,情况有点棘手,因为歌曲/乐队名称几乎可以是任何东西。在这种情况下,仅靠数据可能不足以获得可接受的准确性。在我的项目中,我们使用了大约 5k 的音乐和许多功能以及一些额外的后期处理来让事情变得正确。

      【讨论】:

        猜你喜欢
        • 2017-11-27
        • 1970-01-01
        • 2023-03-22
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2020-08-30
        • 1970-01-01
        • 2015-09-11
        相关资源
        最近更新 更多