使用 Apache Tika 提取大文件答案

【问题标题】：Extract large file with Apache Tika使用 Apache Tika 提取大文件
【发布时间】：2021-01-07 07:50:46
【问题描述】：

我正在使用带有 Go 的 Apache Tika 使用以下代码从任何类型的文件（.txt、.docx、.pdf 等）中提取内容。

file, err := os.Open("foo.docx")
    if err != nil {
        fmt.Println(err)
    }
client := tika.NewClient(nil, "http://localhost:9998/")
body, err := client.Parse(context.Background(), file)

它可以很好地提取内容，但问题是，如果文件大小较大，则可能会生成时间错误 Viz.内存超出范围。所以我想在这里做的是，我想将文件分块传递给Apache Tika server，以便它分块提取内容。

【问题讨论】：

标签： go apache-tika

【解决方案1】：

您可以使用标头更改超时：X-Tika-OCRtimeout: xxx (600)
可以使用 pdfbox 将 pdf 文档拆分为页面 - 检查 org.apache.pdfbox.multipdf.Splitter（apache tika 在后台也使用 pdfbox）因此，您可以按每页拆分文档并将其发送给 tika，而不是发送大的 pdf 文件

【讨论】：