【发布时间】:2017-03-09 12:09:30
【问题描述】:
我们目前正在使用功能包方法来索引数百万张图像。这个想法是将每个图像转换成一袋特征标记。这个袋子里可能有 100 多个代币。我们将这些特征标记映射到唯一的整数,因此每个图像最终都被翻译成一个字符串。类似 '1 3 5 45 ... 565 .. 9176' 这些都是 300 个整数的固定长度字符串。这些整数的范围是 1 - 10000
我们现在想使用这个字符串并检索其他非常相似的字符串。在这种情况下,相似意味着具有最多共同整数的字符串。
我们当前的索引有大约 5000 万个文档,其中每个文档都是上述的固定字符串。我们目前只是在索引时进行愚蠢的默认标记化。这导致我们得到大约 5 到 6 秒的搜索延迟。我们如何才能做得更好,并将延迟减少到一秒以下?
【问题讨论】:
标签: performance search elasticsearch