使用 Amazon Textract 从多页文档 PDF 中同步检测和分析文本

【问题标题】：Detect and analyze text using Amazon Textract from a multi page document PDF synchronously使用 Amazon Textract 从多页文档 PDF 中同步检测和分析文本
【发布时间】：2020-06-30 11:28:56
【问题描述】：

回复https://stackoverflow.com/a/62174368/8117673

进一步的问题是 - 它会影响 Amazon Textract 的文本检测准确性吗？

我是否需要对图像进行预处理才能从 Amazon Textract 获得更好的结果？

【问题讨论】：

标签： python amazon-web-services ocr amazon-textract

【解决方案1】：

我使用命令 pdftoppm 将 PDF 转换为 PNG。在 Python -> subprocess.Popen(['pdftoppm -png Sample.pdf Sample'])

Amazon Textract 在 PDF 文件上的准确性超过了 PNG 格式。因为PDF是原始文档。

【讨论】：

您发现 PNG 有哪些不准确之处？是否在 PDF 中检测到更多块？您是否发现 PNG 文件与 PDF 相比文本更不准确？
@Zakir 不准确之处在于 PNG 中的文本。