【发布时间】:2020-05-13 11:33:31
【问题描述】:
我可以处理/提取我的 PDF 文件中的文本,但我不太清楚我是否在正确的方式下将我的内容存储在 Elasticsearch 中。
我的 PDF 文本大部分是德语 - 带有“ö”、“ä”等字母。
为了存储内容的每个字符,我“转义”了必要的字符并将它们正确编码为 JSON,以便我可以存储它们。
例如:
我想存储以下 (PDF) 文本:
Öffentliche Verkehrsmittel. TestPath: C:\Windows\explorer.exe
我像这样转换并上传到 Elasticsearch:
{"text":"\\u00D6ffentliche Verkehrsmittel. TestPath: C:\\\\Windows\\\\explorer.exe"}
我的问题是:这样存储文档是否正确?
【问题讨论】:
-
你用什么分析器来处理德语文本?
-
@Gagravarr 对不起。我还没有设置分析仪。我需要这样做吗?
标签: elasticsearch pdf ocr apache-tika