【问题标题】:Extract large file with Apache Tika使用 Apache Tika 提取大文件
【发布时间】:2021-01-07 07:50:46
【问题描述】:

我正在使用带有 Go 的 Apache Tika 使用以下代码从任何类型的文件(.txt、.docx、.pdf 等)中提取内容。

file, err := os.Open("foo.docx")
    if err != nil {
        fmt.Println(err)
    }
client := tika.NewClient(nil, "http://localhost:9998/")
body, err := client.Parse(context.Background(), file)

它可以很好地提取内容,但问题是,如果文件大小较大,则可能会生成时间错误 Viz.内存超出范围。 所以我想在这里做的是,我想将文件分块传递给Apache Tika server,以便它分块提取内容。

【问题讨论】:

    标签: go apache-tika


    【解决方案1】:
    1. 您可以使用标头更改超时:X-Tika-OCRtimeout: xxx (600)
    2. 可以使用 pdfbox 将 pdf 文档拆分为页面 - 检查 org.apache.pdfbox.multipdf.Splitter(apache tika 在后台也使用 pdfbox) 因此,您可以按每页拆分文档并将其发送给 tika,而不是发送大的 pdf 文件

    【讨论】:

      猜你喜欢
      • 2015-11-28
      • 1970-01-01
      • 1970-01-01
      • 2011-03-30
      • 1970-01-01
      • 1970-01-01
      • 2018-01-06
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多