【发布时间】:2019-08-04 06:07:09
【问题描述】:
我正在尝试从 pdf 文件中提取特定部分的文本。我已经使用PyPDF2 库来做到这一点。但是,当我执行下面的脚本时,我可以看到我希望抓取的内容正在笨拙地打印在控制台中。
到目前为止我已经写了:
import io
import PyPDF2
import requests
URL = 'http://www.ct.gov/hix/lib/hix/CT_DSG_-12132014_version_1.2_%28with_clarifications%29.pdf'
res = requests.get(URL)
f = io.BytesIO(res.content)
reader = PyPDF2.PdfFileReader(f)
contents = reader.getPage(0).extractText()
print(contents)
我的输出:
ACCESSHEALTHCTConnecticutAllPayersClaimsDatabaseDATASUBMISSIONGUIDE
December5,2013
Version1.2(withclarifications)
我想抓取的输出如下:
ACCESS HEALTH CT
Connecticut All Payers Claims Database
DATA SUBMISSION GUIDE
December 5, 2013
Version 1.2 (with clarifications)
【问题讨论】:
-
用错误的字符串调用 repr() 并打印它返回的内容。这可能会向您展示字符串中真正包含的内容。喜欢
print('contents =',repr(contents)) -
这就是我称之为
'ACCESSHEALTHCTConnecticutAllPayersClaimsDatabaseDATASUBMISSIONGUIDE\nDecember5,2013\nVersion1.2(withclarifications)'时产生的结果 -
嗨@Tarun,很高兴再次找到你。问题是,如果可以产生所需的输出,我很乐意去使用任何库。但是,重要的是我是否可以在我的机器上安装和运行它。非常感谢。
-
在我发布的链接中,您可以下载二进制文件并从您的代码中调用,而不是依赖库,输出将是您想要的结果
标签: python python-3.x web-scraping pypdf2