【发布时间】:2021-01-07 07:50:46
【问题描述】:
我正在使用带有 Go 的 Apache Tika 使用以下代码从任何类型的文件(.txt、.docx、.pdf 等)中提取内容。
file, err := os.Open("foo.docx")
if err != nil {
fmt.Println(err)
}
client := tika.NewClient(nil, "http://localhost:9998/")
body, err := client.Parse(context.Background(), file)
它可以很好地提取内容,但问题是,如果文件大小较大,则可能会生成时间错误 Viz.内存超出范围。
所以我想在这里做的是,我想将文件分块传递给Apache Tika server,以便它分块提取内容。
【问题讨论】:
标签: go apache-tika