【发布时间】:2021-12-28 18:47:39
【问题描述】:
我正在尝试使用 Python+ Spacy 通过网络 scraping 提取项目相关信息,然后构建一个包含少量属性的项目表,我感兴趣的示例短语是:
- 最后一个是 300 兆瓦 Hardin Solar III 能源中心,位于 Hardin 县的 Roundhead、Marion 和 McDonald 乡镇。
- 7 月,OPSB 批准了位于麦迪逊县的577-MW Fox Squirrel Solar Farm。
- 圣地亚哥机构为抽水蓄能项目寻找开发商。
- 5250 万美元基于特许权使用费收入的特许权使用费投资包括 151MW Old Settler 风电场
在这里,我突出显示了我感兴趣的不同类型的信息,我最终需要一个包含以下列的表格: {project name} , {Location} ,{company} , {Capacity} , {start date} , {end Date} , {$investment} , {fuelType}
我正在使用 Spacy,但是查看依赖树我找不到任何通用规则,所以如果我使用匹配器,我最终会得到 10 个匹配器,并且它们不会捕获文本中的所有可能信息,是有一种系统的方法可以帮助我完成这项任务的一部分(例如:提取容量并将其分配给正确的项目名称)
【问题讨论】:
标签: python nlp spacy information-retrieval information-extraction