【发布时间】:2018-03-01 22:20:05
【问题描述】:
我想将 Apache Tika 用于企业级的大量文档。我使用哪一个,Tika Server 或 Tika App 或 Java 调用?你能给我推荐一个系统架构吗? (即负载均衡的 3-4 个 Tika 物理不同的服务器)
【问题讨论】:
-
Tika 会有多少处理?当您的 JVM 崩溃或挂起时,会有多大的问题?
-
每天大约 5000 个文档,每个文档大小为 500 MB。
-
500mb 文档相当大,您希望从中获得多少信息?
-
这取决于文件。通常会提取 50 MB 的文本。