【问题标题】:Analyzing a Specific Page of a PDF with Amazon Textract使用 Amazon Textract 分析 PDF 的特定页面
【发布时间】:2021-05-27 14:58:47
【问题描述】:

我正在使用 Amazon Textract 从 PDF 文件中提取文本。对于其中一些文档,我希望能够指定要从中提取数据的页面,而不必遍历整个过程。这可能吗?如果是这样,我该怎么做?我似乎无法在文档中找到答案。

【问题讨论】:

    标签: python amazon-web-services boto3 amazon-textract


    【解决方案1】:

    我不相信 Textract 提供此功能,但您可以轻松地以编程方式实现它。由于您的标签提到了 python,我会建议一种使用 python 来执行此操作的方法。 您可以使用 PyPDF2 之类的库,它可以让您指定要提取的页面并仅使用这些页面创建新的 pdf。

    from PyPDF2 import PdfFileReader, PdfFileWriter
    
    pdf_file_path = 'Unknown.pdf'
    file_base_name = pdf_file_path.replace('.pdf', '')
    
    pdf = PdfFileReader(pdf_file_path)
    
    pages = [0, 2, 4] # page 1, 3, 5
    pdfWriter = PdfFileWriter()
    
    for page_num in pages:
        pdfWriter.addPage(pdf.getPage(page_num))
    
    with open('{0}_subset.pdf'.format(file_base_name), 'wb') as f:
        pdfWriter.write(f)
        f.close()
    

    这个库可以与 AWS Lambda 作为一个层使用。您可以将文件临时保存在 lambda 上的 /tmp/ 文件夹中。

    来源:https://learndataanalysis.org/how-to-extract-pdf-pages-and-save-as-a-separate-pdf-file-using-python/

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-05-12
      • 2021-11-01
      • 1970-01-01
      • 2019-08-31
      • 2017-10-21
      • 2019-09-24
      相关资源
      最近更新 更多