【发布时间】:2017-06-19 12:06:10
【问题描述】:
我是命名实体识别的新手,在理解此任务中使用什么/如何使用功能时遇到了一些麻烦。
到目前为止,我读过的一些论文提到了使用的功能,但并没有真正解释它们,例如 Introduction to the CoNLL-2003 Shared Task:Language-Independent Named Entity Recognition,提到以下功能:
参与的 16 个系统使用的主要功能 CoNLL-2003 共享任务按英语测试数据的表现排序。 Aff:词缀信息(n-grams); bag:词袋; cas:全球案例 信息; chu:块标签; doc:全局文档信息;天然气: 地名录; lex:词汇特征; ort:正字法信息;拍: 正交模式(如 Aa0); pos:词性标签;前: 先前预测的 NE 标签;现状:标志该词是 引号之间; tri:触发词。
不过,我对其中一些有些困惑。例如:
- 词袋不应该是一种生成特征的方法(每个词一个)吗? BOW 本身怎么可能是一个特性?或者这是否仅仅意味着除了提到的所有其他特征之外,我们还有 BOW 中的每个单词的特征?
- 地名录怎么能成为特征?
- POS 标签如何准确地用作特征?我们不是每个单词都有一个 POS 标签吗?不是每个对象/实例都是“文本”吗?
- 什么是全局文档信息?
- 什么是特征触发词?
我认为我在这里所需要的只是查看一个示例表,其中每个功能作为列并查看它们的值以了解它们的实际工作方式,但到目前为止我还没有找到一个易于阅读的数据集.
有人可以澄清或指出一些正在使用的这些功能的解释或示例吗?
【问题讨论】:
标签: machine-learning nlp classification feature-selection named-entity-recognition