【问题标题】:Adobe PDF Services: Cryptic (Meaningless?) Error MessagesAdobe PDF 服务:神秘(毫无意义?)错误消息
【发布时间】:2021-07-14 05:24:08
【问题描述】:

我正在尝试使用 Adob​​e PDF 服务从公司报告 PDF 中提取文本,并收到以下一些通用错误消息:

    raise SdkException("Request could not be completed. Possible cause attached!", sys.exc_info())
adobe.pdfservices.operation.exception.exceptions.SdkException: description =Request could not be completed. Possible cause attached!, requestTrackingId=(<class 'requests.exceptions.ConnectionError'>, ConnectionError(ProtocolError('Connection aborted.', timeout('The write operation timed out'))), <traceback object at 0x10455d540>)

这不是网络问题,因为:

  1. 我成功地同时从其他 6 个文件中提取了文本
  2. 我对每个错误文件都尝试了多次

文件没有损坏,因为我可以在本地查看它们。

我运行的python代码是由Adobe的Service Account生成并下载到本地文件夹:只更改了输入文件名。

我使用的是试用帐户,并且只使用了 20% 的配额,所以这也不是配额错误。

错误文件列表为:

  1. https://www.asahigroup-holdings.com/en/ir/pdf/annual/2019_all.pdf
  2. https://www.csx.com/share/wwwcsx15/assets/File/Responsibility/CSX_ESG_Report_Final_7_30.pdf
  3. https://online.flippingbook.com/view/459148139/(从那里下载)

是否有任何人(可能是 Adob​​e 员工)能够对一般错误消息提供任何见解/建议,以便我可以尝试纠正问题?

【问题讨论】:

    标签: python pdf adobe adobe-pdfservices


    【解决方案1】:

    我在我的 Node.js 环境中测试了这些文件,它们运行良好。如果您愿意,我很乐意与您分享输出。看起来错误是由于超时造成的,我怀疑是因为文件大小实际上并没有那么大。

    尝试使用允许您设置自定义超时的示例。 full sample is here 但相关代码如下。

    # Initial setup, create credentials instance.
    credentials = Credentials.service_account_credentials_builder()\
        .from_file(base_path + "/pdfservices-api-credentials.json") \
        .build()
    
    # Create client config instance with custom time-outs.
    client_config = ClientConfig.builder().with_connect_timeout(10000).with_read_timeout(40000).build()
    
    #Create an ExecutionContext using credentials and create a new operation instance.
    execution_context = ExecutionContext.create(credentials, client_config)
    

    【讨论】:

    • 感谢 joelgeraci 的见解。实际上,更改超时值可以正确提取 PDF 文件。但我遇到文件“不合格 - 文件不适合转换”错误:kao.com/content/dam/sites/kao/www-kao-com/global/en/… 你知道为什么文件“不合格”吗?
    • 我们实际上正在努力提供更好的错误消息。我认为您收到了 DISQUALIFIED 错误,因为 AI 无法确定布局,但我需要确认。这是一个非常复杂的文件。您介意我将此文件作为测试文件发送给工程团队吗?这些文件可以真正帮助我们训练 AI。
    • 更正:由于文档超过 200 页而引发 DISQUALIFIED 错误。您的文档为 225。我们的上限为 200。我已要求在发生这种情况时,我们提供更好的错误并参考页数限制。
    • 感谢您的澄清。它肯定会帮助处理更有意义的错误消息。是的,请将任何文件发送给您的工程团队进行测试:这些都是公开可用的文件。期待 Adob​​e PDF 服务的改进版本。与我们从第三方开源 PDF 文本提取器获得的结果相比,输出的结构更加结构化。
    猜你喜欢
    • 1970-01-01
    • 2014-11-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-03-29
    • 2015-09-04
    • 2013-01-02
    相关资源
    最近更新 更多