【问题标题】:What is the diffrence between Tika app, Tika Server and Java Wrapper. Which one is used and when?Tika app、Tika Server 和 Java Wrapper 之间有什么区别。使用哪一个以及何时使用?
【发布时间】:2018-03-01 22:20:05
【问题描述】:

我想将 Apache Tika 用于企业级的大量文档。我使用哪一个,Tika Server 或 Tika App 或 Java 调用?你能给我推荐一个系统架构吗? (即负载均衡的 3-4 个 Tika 物理不同的服务器)

【问题讨论】:

  • Tika 会有多少处理?当您的 JVM 崩溃或挂起时,会有多大的问题?
  • 每天大约 5000 个文档,每个文档大小为 500 MB。
  • 500mb 文档相当大,您希望从中获得多少信息?
  • 这取决于文件。通常会提取 50 MB 的文本。

标签: apache-tika tika-server


【解决方案1】:

对 REST 端点进行 PUT 调用以通过 HTTP 发送数千个 0.5 GB 文档,一次一个,对于 Tika 服务器来说是不合适的方案。它不会节省内存,并且服务器 will likely crash 会出现某种内存泄漏或错误。

尽管从 v1.19 开始,在处理 -maxFiles 之后,periodically restart 进程现在有一个 -spawnChild 选项。从 v2.x 开始,这是now the default

根据您的需要,您只需在batch mode 中使用tika-app,即:

  • 使用您指定的输入和输出目录在本地运行
  • 设置父/子进程以稳健地处理挂起/OOME
  • 并行运行多个解析器线程
  • 可以每隔 x 分钟或在 y 个文件后重新启动子进程以避免内存泄漏
  • 记录失败
java -jar tika-app.jar -i <input_directory> -o <output_dir>

【讨论】:

    猜你喜欢
    • 2015-04-23
    • 1970-01-01
    • 2013-09-24
    • 2018-05-29
    • 1970-01-01
    • 2020-04-29
    • 1970-01-01
    • 1970-01-01
    • 2017-05-18
    相关资源
    最近更新 更多