【发布时间】:2017-04-19 18:15:50
【问题描述】:
尝试使用 Python 3.6 从 PDF 中提取表格。似乎 [pyPDF2][1] 失败并且 [pdfminer][2] 与 3.x 不兼容。我为 [tabula][3] 找到了一个 python 包装器。
import tabula
file_list = get_pdf_list()
text = tabula.read_pdf(file_list[0])
print(text)
tabula.convert_into(file_list[0], "test.json", ouput_format="json")
read_pdf 和 convert_into 都返回空结果。 PyPDF2 也有同样的问题。运行时没有错误
我开始认为这与我的 pdf 格式有关。谁有更多经验?我正在尝试从 pdf 中的表中提取值。
【问题讨论】:
-
在哪里可以获得 Python 3.7?还是你的意思是 2.7?
-
3.6.. 我的错。已编辑。
-
您似乎已在问题文本的底部删除了有关您要指定的链接的信息:
[pyPDF2][1] ... [pdfminer][2]。如果你愿意,你也可以修复它。 -
你可以在这里试试here with PDFminer/PDFminer-six for Python 3.6。并不完美,但值得一试。
标签: python python-3.x pdf