【问题标题】:Reading PDF content from LOGSTASH从 LOGSTASH 读取 PDF 内容
【发布时间】:2017-02-07 10:43:09
【问题描述】:

LOGSTASH 能否从某个位置读取 PDF 文件并提取其中的内容,然后将此内容发送到目的地(KAFKA)?

据我所知,LOGSTASH 可以读取 .TXT 或 .LOG 或 .CSV 文件,但我不确定它是否能够读取 PDF 中的内容。

对此行的任何建议都会有所帮助。

如果没有,kafka 有这个能力吗?是否可以从 APACHE KAFKA 读取 PDF 内容?

【问题讨论】:

    标签: apache-kafka logstash logstash-configuration logstash-file


    【解决方案1】:

    Logstash 没有 PDF 输入过滤器。最好的办法是找到一个可以在 PDF 文件中为您提供文本的程序。有这个问题可能会有所帮助:How to extract text from a PDF?

    然后您可以设置一些东西来生成 PDF 的文本版本,然后使用 logstash 将它们索引到 elasticsearch。

    【讨论】:

      猜你喜欢
      • 2019-08-20
      • 2020-09-18
      • 2011-04-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多