【发布时间】:2020-10-21 08:36:58
【问题描述】:
我正在尝试使用 PyPDF4 打开一个 PDF 文件。
import PyPDF4
text = ""
pdf_file = open(filename,mode='rb')
pdfReader = PyPDF4.PdfFileReader(pdf_file)
pdfObj = pdfReader.getPage(0)
text = pageObj.extract(pdfObj)
print(text)
效果很好,除了 PDF 的内容是德语并且特殊字符(元音变音)编码错误(例如,zun−chst 而不是 zunächst)。
我无法更改二进制代码中的编码,但如果我不使用二进制代码,则会出现错误
文件“/usr/local/lib/python3.8/site-packages/PyPDF4/pdf.py”,第 1754 行,已读 stream.seek(-1, 2) io.UnsupportedOperation: 不能做非零端相对搜索
这个错误有多个线程(例如Seeking from end of file throwing unsupported exception) 然而,似乎没有一个解决方案对我有用。 非常感谢任何帮助,谢谢。
【问题讨论】:
-
这是 pyPDF2 和 pyPDF3 和 pyPDF4 中的一个错误 - 所有三个行为相同。由于此时似乎只有 pyPDF3 处于活动状态,因此我在 github.com/sfneal/PyPDF3/issues/13 创建了一个问题