【问题标题】:Convert PDF to Text - Keep rows of table - Python将 PDF 转换为文本 - 保留表格行 - Python
【发布时间】:2012-03-25 02:29:19
【问题描述】:

我想将 pdf 文档中的表格转换为文本。我找到了以下将pdf转换为文本的代码。但是,当它转换时,它不会将数据保留在正确的行中。它将所有内容放在一长串字符串中。使用 Python 从 PDF 转换为文本时,有什么方法可以保留表格中的行?

from pdfminer.pdfparser import PDFDocument, PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, process_pdf
from pdfminer.pdfdevice import PDFDevice, TagExtractor
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter
from pdfminer.cmapdb import CMapDB
from pdfminer.layout import LAParams
from cStringIO import StringIO

def convert_pdf(path):

    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

    fp = file(path, 'rb')
    process_pdf(rsrcmgr, device, fp)
    fp.close()
    device.close()

    str = retstr.getvalue()
    retstr.close()
    return str

【问题讨论】:

    标签: python pdf text converter


    【解决方案1】:

    Pdfminer 带有名为pdf2txt.py 的文本提取工具,具有分析布局的能力。您可以尝试使用它,或研究它以了解它是如何工作的。

    【讨论】:

      【解决方案2】:

      A-PDF to Text 使用表格作为其他工具转换更好的 PDF !

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2012-02-03
        • 1970-01-01
        • 1970-01-01
        • 2016-06-06
        • 1970-01-01
        • 1970-01-01
        • 2022-12-09
        • 1970-01-01
        相关资源
        最近更新 更多