【发布时间】:2018-07-04 03:07:36
【问题描述】:
我目前有一个关于 NLP 的项目,我尝试使用 NLTK 来识别人名。但是,这个问题比寻找词性更具挑战性。
"input = "Hello world, the case is complex. John Due, the plaintiff in the case has hired attorney John Smith for the case."
所以,挑战是:我只想从整个文件中获取律师的姓名,而不是其他人,所以“John Smith”,词性:PERSON,职业:律师。返回可能看起来像这样,或者只是“John Smith”。
{
"name": "John Smith",
"type": "PERSON",
"occupation": "attorney"
}
我尝试过 NLTK 词性,也是 Google Cloud Natural Language API,但它只是帮助我检测 PERSON 名称。怎么判断是不是律师?请指导我采取正确的方法。我是否必须训练自己的数据或语料库来检测“律师”。我有成千上万的法庭文件 txt 文件。
【问题讨论】:
-
我认为使用经典的 NER 方法/工具无法完成“在文本中未明确检测占用”。您可以获得人员姓名,但您需要一些训练有素的机器学习模型来预测/分类职业。
标签: machine-learning nlp deep-learning google-cloud-platform nltk