【问题标题】:using PDFLib/TET alongwith boto to parse pdf on amazon s3使用 PDFLib/TET 和 boto 在 amazon s3 上解析 pdf
【发布时间】:2014-06-20 07:34:43
【问题描述】:
  1. 从 amazon s3 读取 pdf 文件(使用 boto)
  2. 在本地保存为 123.pdf
  3. 使用 PDFLib/TET 打开并解析本地保存的 pdf

我目前能够执行上述所有 3 个步骤,但 我想跳过第 2 步以节省磁盘 I/O。

看起来可以使用 tet_open_document_mem 让 TET 打开内存中的文档,但是 没有关于如何使用的文档。

【问题讨论】:

    标签: python-2.7 pdf amazon-s3 pdflib


    【解决方案1】:

    TET 提供所谓的 PDFlib 虚拟文件系统 (PVF) 来处理这种情况。

    您可以使用 create_pvf() 从内存中提供的数据创建一个命名的虚拟只读文件。

    API 看起来像这样 (C):

    void TET_create_pvf(TET *tet, const char *filename, int len, const void *data, size_t size, const char *optlist)
    

    所以可以这样使用:

    TET_create_pvf(tet, pvfname, 0, data, length, "");
    doc = TET_open_document(tet, pvfname, 0, docoptlist);
    

    更多细节可以在TET手册http://www.pdflib.com/fileadmin/pdflib/pdf/manuals/TET-4.3-manual.pdf中找到

    TET_open_document_mem 是一个不再受支持的旧 API。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-09-29
      • 2014-12-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多