使用 Amazon Textract 分析 PDF 的特定页面答案

【问题标题】：Analyzing a Specific Page of a PDF with Amazon Textract使用 Amazon Textract 分析 PDF 的特定页面
【发布时间】：2021-05-27 14:58:47
【问题描述】：

我正在使用 Amazon Textract 从 PDF 文件中提取文本。对于其中一些文档，我希望能够指定要从中提取数据的页面，而不必遍历整个过程。这可能吗？如果是这样，我该怎么做？我似乎无法在文档中找到答案。

【问题讨论】：

标签： python amazon-web-services boto3 amazon-textract

【解决方案1】：

我不相信 Textract 提供此功能，但您可以轻松地以编程方式实现它。由于您的标签提到了 python，我会建议一种使用 python 来执行此操作的方法。您可以使用 PyPDF2 之类的库，它可以让您指定要提取的页面并仅使用这些页面创建新的 pdf。

from PyPDF2 import PdfFileReader, PdfFileWriter

pdf_file_path = 'Unknown.pdf'
file_base_name = pdf_file_path.replace('.pdf', '')

pdf = PdfFileReader(pdf_file_path)

pages = [0, 2, 4] # page 1, 3, 5
pdfWriter = PdfFileWriter()

for page_num in pages:
    pdfWriter.addPage(pdf.getPage(page_num))

with open('{0}_subset.pdf'.format(file_base_name), 'wb') as f:
    pdfWriter.write(f)
    f.close()

这个库可以与 AWS Lambda 作为一个层使用。您可以将文件临时保存在 lambda 上的 /tmp/ 文件夹中。

来源：https://learndataanalysis.org/how-to-extract-pdf-pages-and-save-as-a-separate-pdf-file-using-python/

【讨论】：