斯坦福 NER CRF 实施是否在训练阶段使用句子？

【问题标题】：Does the Stanford NER CRF implementation use sentences in the training phase?斯坦福 NER CRF 实施是否在训练阶段使用句子？
【发布时间】：2015-02-21 00:19:47
【问题描述】：

我是 CRF 的新手，我的一些术语可能有偏差，所以请耐心等待。我假设斯坦福 NER 实现了线性链 CRF。

设 x 是单词序列，y 是对应标签的序列。将 x 称为示例，将 y 称为其标签。 x 的一个分量 x_i 是一个词。 y 的一个分量 y_i 是一个标签。

在训练模型时，我们会为它提供如下内容：
```
James    PERSON
lives    O
in       O
Chicago  LOCATION
.        O
Coffee   O
in       O
Trieste  LOCATION
is       O
great    O
.        O 
```
模型是否使用单个句子作为示例？使用上面的数据是示例之一：？这是否意味着特征函数不能依赖于前面句子中的单词？
如果确实如此，模型如何确保每个示例确实是一个句子？它是否进行任何句子边界检测？可以看一下吗？ 4个句子的批次？

提前谢谢你:)

【问题讨论】：

标签： stanford-nlp

【解决方案1】：

两个换行符被认为是一个例子的边界。您的示例可以是从短语到整个文档的任何内容。所以对于你的例子，如果你想要两个句子作为两个例子：

詹姆斯人生活O 在 O 芝加哥位置 . ○ 咖啡O 在 O 的里雅斯特位置是 O 伟大的O . ○

【讨论】：

与使用整个文档相比，将每个句子的文本拆分有什么优势吗？
取决于您是否认为您使用的 NER 标记位于句子的开头或结尾时更容易预测。对于通常的 NER 任务，它并没有太大的区别——可能会提高 1-2% 的性能。但是，如果您的句子没有干净地拆分，那么最好以文档为例。

猜你喜欢

2015-06-29
2016-06-20
2017-11-27
2023-03-22
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2015-09-11

相关资源

下载 2023-04-09
下载 2021-06-06
下载 2022-12-30

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode