【发布时间】:2021-06-14 15:47:24
【问题描述】:
我有几百万个(pdf、docx、doc)文件,每个文件可能包含大约 2-4 页的文本。
我的问题是我有一个用例,我有一个文档,我想从这数百万个文件中获取类似的文档。 (即,将一个文档与所有其他文档匹配并获得 n 个匹配项)
我可以使用弹性搜索,它是否可扩展?在这种情况下我应该如何索引文档?我是否只是从 pdf 文档中提取文本并将其存储在 json 对象中,然后使用弹性搜索将其作为文档插入到索引中。
这是最有效的解决方案吗?
【问题讨论】:
标签: python elasticsearch