【问题标题】:Detect and analyze text using Amazon Textract from a multi page document PDF synchronously使用 Amazon Textract 从多页文档 PDF 中同步检测和分析文本
【发布时间】:2020-06-30 11:28:56
【问题描述】:

回复https://stackoverflow.com/a/62174368/8117673

进一步的问题是 - 它会影响 Amazon Textract 的文本检测准确性吗?

我是否需要对图像进行预处理才能从 Amazon Textract 获得更好的结果?

【问题讨论】:

    标签: python amazon-web-services ocr amazon-textract


    【解决方案1】:

    我使用命令 pdftoppm 将 PDF 转换为 PNG。在 Python -> subprocess.Popen(['pdftoppm -png Sample.pdf Sample'])

    Amazon Textract 在 PDF 文件上的准确性超过了 PNG 格式。因为PDF是原始文档。

    【讨论】:

    • 您发现 PNG 有哪些不准确之处?是否在 PDF 中检测到更多块?您是否发现 PNG 文件与 PDF 相比文本更不准确?
    • @Zakir 不准确之处在于 PNG 中的文本。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-08-15
    • 2019-10-08
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多