【问题标题】:Stanford NER lowercase entities斯坦福 NER 小写实体
【发布时间】:2017-03-13 09:47:19
【问题描述】:

我在检测以小写字母开头的命名实体时遇到问题。如果我只用小写单词训练模型,那么准确率是合理的;但是,当模型使用完全大写的标记或什至小写和大写混合进行训练时,结果非常糟糕。我尝试了斯坦福 NLP 小组Class NERFeatureFactory 提供的一些功能以及各种句子,但我无法得到我期望的结果。 我面临的问题的一个例子如下:

“阿里在密歇根大学学习,现在他为我们海军工作。”

我希望模型能够识别如下实体:

  • “大学”:“设施”,
  • “密歇根州”:“设施”,
  • “阿里”:“人”
  • “我们”:“组织”
  • “海军”:“组织”

如果用作训练数据的 .TSV 文件只包含小写字母,那么我可以得到上述结果,否则结果令人惊讶。

任何帮助都非常感谢。

【问题讨论】:

    标签: nlp stanford-nlp named-entity-recognition


    【解决方案1】:

    如果您有小写文本或混合大小写文本,由于斯坦福 NLP 模型是在标准编辑数据上训练的,因此准确性可能会受到影响,但有几种有用的方法可以解决此问题:

    1. 一种方法是使用 true case annotator 正确大写文本,然后使用常规 NER 模型处理生成的文本。
    2. 另一种方法是探索无壳模型,包括作为斯坦福 NER 一部分提供的模型。

    您可以阅读更多here

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-03-17
      • 2020-04-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-06-06
      相关资源
      最近更新 更多