【问题标题】:Dataset to train MITIE ner model训练 MITIE ner 模型的数据集
【发布时间】:2017-10-06 09:23:28
【问题描述】:

是否有任何现有的带有标记实体的数据集来训练 MITIE ner 模型? 我检查了链接https://github.com/mit-nlp/MITIE/blob/master/examples/python/train_ner.py,它只用两个样本训练模型。是否有任何现有的带有标记实体的数据集进行训练?

【问题讨论】:

    标签: python named-entity-recognition rasa-nlu


    【解决方案1】:

    我也一直在寻找这样的东西。仅用于“通用”(因此不是很有用)NLU 后端。到目前为止,我唯一发现的是一个训练有素的模型,其中包含 9 个新闻类别(不是很通用)。在此处查看博客文章:http://eric-yuan.me/ner_1/

    如果您可以选择切换 NER,则 spaCy 默认提供经过训练的模型。它的可视化前端可以通过google“displacy”找到

    如果你还发现了什么,请告诉我!

    编辑:花了一天的时间研究这个,我想我已经找到了你所追求的。如果你去https://github.com/mit-nlp/MITIE/releases,你会发现 MITIE 自己的 NER 模型在 Wikipedia、Freebase 等上训练。实际的训练数据集也在那里。他们 github 页面上的 README 提供了有关如何使用预训练模型的示例。您还可以研究示例文件夹中的 ner.py 文件,以了解如何在 python 代码中使用预训练模型。

    【讨论】:

    • 非常感谢。如果我发现任何其他有用的数据集,我会在这里发表评论。
    • 我尝试通过对手套向量进行聚类并用名称标记每个集群来创建我自己的带有标记实体的数据集。您认为这是正确的做法吗?
    • 听起来很像,但我还没有玩过这个东西还不确定。看起来我暂时不会再回到这个问题上,因为我被分配到另一个项目。你暂时靠自己。对不起:(
    猜你喜欢
    • 1970-01-01
    • 2023-02-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-28
    • 2018-05-06
    • 2020-10-16
    相关资源
    最近更新 更多