【发布时间】:2019-11-29 08:52:17
【问题描述】:
我不确定为什么标准标记器(由默认标准分析器使用)在这种情况下会表现得像这样:
- 如果我使用单词system.exe,它会生成令牌system.exe。我知道. 不是断字。
- 如果我使用单词system32.exe,它会生成标记system 和exe。我不明白这一点,为什么它在找到 number + . 时会破坏这个词?
- 如果我使用单词system32tm.exe,它会生成令牌system32tm.exe。与第一个示例一样,它按预期工作,没有将单词分解为不同的标记。
我已经阅读了http://unicode.org/reports/tr29/#Word_Boundaries,但我仍然不明白为什么 number + dot (.) 是单词边界
【问题讨论】:
标签: elasticsearch token tokenize analyzer word-boundary