【问题标题】:Pdf to XML/json using Python module使用 Python 模块将 PDF 转换为 XML/json
【发布时间】:2018-05-31 12:29:36
【问题描述】:

我可以使用代码从 pdf 中读取文本:

import pdfx
pdf = pdfx.PDFx("1951.pdf")
metadata = pdf.get_metadata()
reference_list = pdf.get_references()
reference_dict = pdf.get_references_as_dict()
pdf.download_pdfs("D:/")
pdf.get_text()

但是不能转成json:

pdfx -d D:/Output/ -j -o output.json pdf
SyntaxError: invalid syntax

语法:pdfx [-h] [-d OUTPUT_DIRECTORY] [-c] [-j] [-v] [-t] [-o OUTPUT_FILE] [ - 版本] pdf

【问题讨论】:

    标签: python


    【解决方案1】:

    我能够使用 Pdfminer Python 模块转换为 XML。

    1. http://pypi.python.org/pypi/pdfminer/下载并解压模块
    2. 在 shell 上运行:python pdf2txt.py -o samples/output.xml -t xml samples/1951.pdf
    3. 对于文本:python pdf2txt.py samples/1951.pdf

    【讨论】:

    • 你正在使用 pdf2txt .py,这个文件是否存在于 pdfminer 模块中?
    • 是的pdf2txt.py自带pdfminer模块
    • 它带有pdfminer,但位于Python的Scripts文件夹下
    猜你喜欢
    • 2017-09-17
    • 2022-06-10
    • 2010-09-16
    • 2019-11-17
    • 1970-01-01
    • 2019-03-27
    • 2011-09-11
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多