【问题标题】:Custom NER and POS tagging自定义 NER 和 POS 标记
【发布时间】:2014-01-26 00:03:02
【问题描述】:

我正在查看斯坦福 CoreNLP 以了解 NER 和 POS 标记。但是,如果我想为<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year> 之类的实体创建自定义标签怎么办? CoreNLP 在这种情况下有用吗?

【问题讨论】:

  • 是的,CoreNLP 可以使用自定义“标签”。 “年”应该已经被标记为日期。一个简单的方法是使用公报功能。你需要仔细阅读文档,多读几遍。

标签: nlp stanford-nlp named-entity-recognition pos-tagger


【解决方案1】:

开箱即用的 CoreNLP 将仅限于他们提到的类型:人员、位置、组织、其他、日期、时间、金钱、数字。不,仅仅假设它可以“直观地”做到这一点,您将无法识别其他实体:)

实际上,您必须选择:

  1. 查找另一个标记这些类型的 NER 系统
  2. 使用基于知识/无监督的方法解决此标记任务。
  3. 搜索包含您想要识别的类型的额外资源(语料库),并重新训练有监督的 NER 系统(CoreNLP 或其他)
  4. 构建(并可能注释)您自己的资源 - 然后您必须定义注释方案、规则等 - 工作中非常有趣的部分!

确实,除非您找到满足您需求的现有系统,否则需要付出一些努力!无监督方法可以帮助您引导系统,以便查看您是否需要查找/注释专用语料库。在后一种情况下,最好将数据分离为训练/开发/测试部分,以便能够评估生成的系统对看不见的数据的执行情况。

【讨论】:

    【解决方案2】:

    查看此常见问题解答 (http://nlp.stanford.edu/software/crf-faq.shtml) 以使用 CRF 分类器为新类训练您的模型。您可能会发现它很有用。

    【讨论】:

      猜你喜欢
      • 2020-06-08
      • 1970-01-01
      • 1970-01-01
      • 2014-11-05
      • 2021-06-03
      • 1970-01-01
      • 1970-01-01
      • 2018-01-06
      • 2021-09-21
      相关资源
      最近更新 更多