【发布时间】:2015-03-28 04:11:19
【问题描述】:
我目前正在尝试为我的 ElasticSearch 集群找出分析方案。我正在使用 ES 来索引 pdf、word、powerpoint 和 excel 文档。我正在使用 Apache Tika 来提取文本。
我的问题是我事先不知道文件内容是什么语言。它们可以用任何语言编写。
我的问题是,有没有办法让 ES 分析文本而不考虑语言?或者我应该为每种语言都有一个预定义的字段,有自己的分词器、分析器和停用词?
【问题讨论】:
标签: elasticsearch formal-languages