【发布时间】:2015-08-01 13:33:10
【问题描述】:
我正在使用 CRFSuite(python-crfsuite 实现)构建命名实体提取器,类似于 http://nbviewer.ipython.org/github/tpeng/python-crfsuite/blob/master/examples/CoNLL%202002.ipynb 上的教程 训练输入是一系列单词,每个单词都有许多特征。
问题在于,对于我的特定用例,我并不总是具有我试图识别的实体的特征。我希望 CRF 模型根据周围单词的特征来识别实体。但是,当我简单地输入一个空字典 {} 作为单词的特征时,命名实体永远不会被正确分类。
我想知道是否有处理这种情况的特征或标准方法,在训练模型后,模型并不总是具有所有项目的特征。
【问题讨论】:
标签: python missing-data crf missing-features