【发布时间】:2020-05-14 11:56:24
【问题描述】:
我有一个公司名称列表,我正试图从大量 PDF 文档中解析这些名称。
我已经通过 Apache Tika 强制 PDF 提取原始文本,我已经读取了 200 家公司的列表。
我一直在尝试使用 FuzzyWuzzy 和 Spacy 的某种组合来提取所需的匹配项。
据我所知:
import spacy
from fuzzywuzzy import fuzz, process
nlp = spacy.load("en_core_web_sm")
doc = nlp(strings[1])
companies = []
candidates = []
for ent in doc.ents:
if ent.label_ == "ORG":
candidates.append(ent.text)
process.extractBests(company_name, candidates, score_cutoff=80)
我想做的是:
- 通读文档字符串
- 解析任何模糊的公司名称 匹配得分 80+
- 返回包含在 文件及其分数。
救命!
【问题讨论】:
-
你看过这个帖子吗? support.prodi.gy/t/… 有几篇文章包含 GitHub 链接,这些链接指向结合这两个库的工作代码。
-
嘿伙计,我确实看到了那个,但我弹开了它。我是否错过了如何使用它来解决这个问题?
标签: python python-3.x spacy apache-tika fuzzywuzzy