【问题标题】:Does the Stanford NER CRF implementation use sentences in the training phase?斯坦福 NER CRF 实施是否在训练阶段使用句子?
【发布时间】:2015-02-21 00:19:47
【问题描述】:

我是 CRF 的新手,我的一些术语可能有偏差,所以请耐心等待。我假设斯坦福 NER 实现了线性链 CRF。

设 x 是单词序列,y 是对应标签的序列。将 x 称为示例,将 y 称为其标签。 x 的一个分量 x_i 是一个词。 y 的一个分量 y_i 是一个标签。

  1. 在训练模型时,我们会为它提供如下内容:

    James    PERSON
    lives    O
    in       O
    Chicago  LOCATION
    .        O
    Coffee   O
    in       O
    Trieste  LOCATION
    is       O
    great    O
    .        O 
    

    模型是否使用单个句子作为示例?使用上面的数据是示例之一:?这是否意味着特征函数不能依赖于前面句子中的单词?

  2. 如果确实如此,模型如何确保每个示例确实是一个句子?它是否进行任何句子边界检测?可以看一下吗? 4个句子的批次?

提前谢谢你:)

【问题讨论】:

    标签: stanford-nlp


    【解决方案1】:

    两个换行符被认为是一个例子的边界。您的示例可以是从短语到整个文档的任何内容。所以对于你的例子,如果你想要两个句子作为两个例子:

    詹姆斯人 生活O 在 O 芝加哥位置 . ○ 咖啡O 在 O 的里雅斯特 位置 是 O 伟大的O . ○

    【讨论】:

    • 与使用整个文档相比,将每个句子的文本拆分有什么优势吗?
    • 取决于您是否认为您使用的 NER 标记位于句子的开头或结尾时更容易预测。对于通常的 NER 任务,它并没有太大的区别——可能会提高 1-2% 的性能。但是,如果您的句子没有干净地拆分,那么最好以文档为例。
    猜你喜欢
    • 2015-06-29
    • 2016-06-20
    • 2017-11-27
    • 2023-03-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-09-11
    相关资源
    最近更新 更多