【发布时间】:2017-09-19 12:31:44
【问题描述】:
在用于培训 CRF++ 的模板中,我如何才能包含针对上市公司的自定义 dictionary.txt 文件,例如针对流行的欧洲食品或几乎任何类别的另一个文件。
然后为每个类别提供样本训练数据,从而了解这些特定的命名实体如何在该类别的上下文中使用。
通过这种方式,我和系统可以确保它正确理解某些命名实体在文本中的结构,无论是推文还是普利策奖获奖新闻文章,而不是提供数百兆字节的数据。
这会很酷。模型将有一个明确的已知实体字典(不需要扩展),以及关于这些已知实体在人类文本中的结构的统计方法。
PS - 只是为了清楚起见,而不是向往正则表达式 ner。只有当你在字典里有很多东西,很多规则和很多无聊的时间时,这些才是很酷的。
【问题讨论】:
标签: machine-learning nlp named-entity-recognition crf crf++