【问题标题】:ElasticSearch multiple languagesElasticSearch 多种语言
【发布时间】:2015-03-28 04:11:19
【问题描述】:

我目前正在尝试为我的 ElasticSearch 集群找出分析方案。我正在使用 ES 来索引 pdf、word、powerpoint 和 excel 文档。我正在使用 Apache Tika 来提取文本。

我的问题是我事先不知道文件内容是什么语言。它们可以用任何语言编写。

我的问题是,有没有办法让 ES 分析文本而不考虑语言?或者我应该为每种语言都有一个预定义的字段,有自己的分词器、分析器和停用词?

【问题讨论】:

标签: elasticsearch formal-languages


【解决方案1】:

我建议看看 ElasticSearch 插件elasticsearch-mapper-attachments。我用它来构建文档搜索功能。

在支持多种语言方面,每种语言都有一个索引,这是我们的最佳体验。如果您可以在索引之前识别语言,则可以将文档插入适当的索引中。这使得添加新语言与按语言方法添加一个字段变得更加容易。

要记住的一件事是每个文档页面的一种语言底部的 Don't use Types for Languages 注释。这样做会以一种非常难以调试的方式弄乱搜索。

如果您需要检测语言,在“混合语言的陷阱”页面底部提到了两个选项。

【讨论】:

  • 会检查映射器附​​件插件,虽然我怀疑我会使用它。不幸的是,我不能使用每种语言的索引方法,因为我已经有每个用户结构的索引。我可能最终会为每种语言提供一个字段。
猜你喜欢
  • 1970-01-01
  • 2014-06-10
  • 1970-01-01
  • 2020-10-09
  • 2018-03-16
  • 2019-10-09
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多