【问题标题】:Apache ManifoldCF TIKAApache ManifoldCF TIKA
【发布时间】:2017-11-16 11:08:38
【问题描述】:

我正在尝试使用 Apache ManifoldCF 上的 Apache Tika 集成来提取 PDF 的文本内容,以便在我的笔记本电脑上的 Elasticsearch 服务器中提取一些 PDF 文件。

在我的工作中正确创建 Tika Transformer 并对其进行配置后,我看到 ES 上的结果字段“_content”填充了文件的二进制编码,而不是文本。

我也看到了这个:Extract file content with ManifoldCF,但仍然没有提供答案(自 2015 年以来!)

谁能帮帮我?

谢谢!

【问题讨论】:

    标签: pdf elasticsearch apache-tika manifoldcf


    【解决方案1】:

    在弹性搜索的输出连接器中,您为内容字段指定的字段名称是什么?

    请提供字段名称以及最大文档大小。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-10-25
      • 1970-01-01
      • 2018-10-28
      • 2021-01-20
      • 2014-01-15
      • 2016-06-03
      • 2013-01-13
      • 1970-01-01
      相关资源
      最近更新 更多