Apache ManifoldCF TIKA答案

【问题标题】：Apache ManifoldCF TIKAApache ManifoldCF TIKA
【发布时间】：2017-11-16 11:08:38
【问题描述】：

我正在尝试使用 Apache ManifoldCF 上的 Apache Tika 集成来提取 PDF 的文本内容，以便在我的笔记本电脑上的 Elasticsearch 服务器中提取一些 PDF 文件。

在我的工作中正确创建 Tika Transformer 并对其进行配置后，我看到 ES 上的结果字段“_content”填充了文件的二进制编码，而不是文本。

我也看到了这个：Extract file content with ManifoldCF，但仍然没有提供答案（自 2015 年以来！）。

谁能帮帮我？

谢谢！

【问题讨论】：

【解决方案1】：

在弹性搜索的输出连接器中，您为内容字段指定的字段名称是什么？

请提供字段名称以及最大文档大小。

【讨论】：