ElasticSearch 多种语言答案

【问题标题】：ElasticSearch multiple languagesElasticSearch 多种语言
【发布时间】：2015-03-28 04:11:19
【问题描述】：

我目前正在尝试为我的 ElasticSearch 集群找出分析方案。我正在使用 ES 来索引 pdf、word、powerpoint 和 excel 文档。我正在使用 Apache Tika 来提取文本。

我的问题是我事先不知道文件内容是什么语言。它们可以用任何语言编写。

我的问题是，有没有办法让 ES 分析文本而不考虑语言？或者我应该为每种语言都有一个预定义的字段，有自己的分词器、分析器和停用词？

【问题讨论】：

【解决方案1】：

我建议看看 ElasticSearch 插件elasticsearch-mapper-attachments。我用它来构建文档搜索功能。

在支持多种语言方面，每种语言都有一个索引，这是我们的最佳体验。如果您可以在索引之前识别语言，则可以将文档插入适当的索引中。这使得添加新语言与按语言方法添加一个字段变得更加容易。

要记住的一件事是每个文档页面的一种语言底部的 Don't use Types for Languages 注释。这样做会以一种非常难以调试的方式弄乱搜索。

如果您需要检测语言，在“混合语言的陷阱”页面底部提到了两个选项。

【讨论】：