【发布时间】:2021-06-09 03:49:13
【问题描述】:
我正在尝试使用 Python 从 PDF 文件中提取文本,我的主要目标是在主文件中提取不带标题的文本。
这是示例图像,标题指的是红色矩形: enter image description here
这里是 PDF 文件链接:https://mega.nz/file/d0YkhB5Y#j7eA0EBxg70Yu36PjGocNjouP_xQFoRRAN7VfyDeClo
目前将 PDF 文件中的文本提取为字符串的最佳和最简单的方法是什么? 我试过用pdfplumber,但是看了它的用户指南,还是不知道怎么用。
感谢您的帮助!!
【问题讨论】:
-
你使用什么模块?你的代码在哪里?
-
this的可能重复
标签: python python-3.x pdf