【发布时间】:2023-03-07 12:17:01
【问题描述】:
如果我在这里使用答案中的代码: Extracting text from a PDF file using PDFMiner in python?
申请此pdf时我可以获取要提取的文本:https://www.tencent.com/en-us/articles/15000691526464720.pdf
但是,您在“综合收入报表”下看到,它会向下读取...即...Revenues VAS Online advertising 然后它会读取数字...我希望它可以读取,即:
Revenues 73,528 49,552 73,528 66,392 VAS 46,877 35,108 等等...有没有办法做到这一点?
寻找除pdfminer 之外的其他可能的解决方案。
如果我尝试将此代码用于PyPDF2,甚至不会显示所有文本:
# importing required modules
import PyPDF2
# creating a pdf file object
pdfFileObj = open(file, 'rb')
# creating a pdf reader object
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# printing number of pages in pdf file
a=(pdfReader.numPages)
# creating a page object
for i in range(0,a):
pageObj = pdfReader.getPage(i)
print(pageObj.extractText())
【问题讨论】:
-
您可以按照物品出现的顺序收集物品,然后重新整理。
-
“任何方式”听起来有点宽泛。您是否检查过 PDFMiner 的文档以查看是否有可能更改此(显然)默认行为?
-
euske.github.io/pdfminer 我没看到。也许有人有另一种不使用 pdfminer 的方法。它变得更加复杂:euske.github.io/pdfminer/programming.html ...也许有人使用对象来做我想做的事。
-
@ScottHunter 斯科特怎么样?你能告诉我一些开始的代码吗?您使用的是哪个 pdf 库?
pdfminer?
标签: python pdf pdfminer pypdf2