【发布时间】:2019-08-22 05:49:32
【问题描述】:
我有一个问题,我想知道如何根据在句子中使用实体的上下文来提取或命名实体。
例如:如果我们必须提取仅在出生日期上下文中使用的日期字段,那么我们该怎么做。
我知道我们可以使用正则表达式、spacy、NLTK 从文档中提取日期字段。但我无法根据使用日期的上下文确定提取日期的方法。
示例 1:我的生日是 12 月 9 日。如果我们使用 spacy 或正则表达式,这里 12 月 9 日将被标记为日期字段,但我希望它被标记为自定义实体“出生日期”。 示例 2:我要在 4 月 1 日去看电影。此处应将 4 月 1 日标记为正常日期字段。
【问题讨论】:
-
@Praveen Kumar 我正在处理一个类似的问题,只是想知道您是否能够使用任何启发式方法以某种方式解决这个问题?
-
@someone 我使用了 spacy 的自定义模型Spacy,但效率不高。所以我浏览了一些文章和博客,发现了Bidirectional LSTM- CNN network,它的实现在Github。我仍在为自定义实体准备数据集,所以我没有尝试过这种方法,但据我所知,这应该可行。
-
嗨@PraveenKumar 我有类似的问题。你试过双向 LSTM-CNN 吗?谢谢!
-
@eng2019 我试过双向 LSTM-CNN 网络。但我使用 BERT 得到了更好的结果。
-
谢谢@PraveenKumar F1-score 是多少,你使用了多少训练数据?我也尝试过 BERT,我的情况没有太大改善。
标签: machine-learning nlp nltk data-science spacy