【发布时间】:2019-01-26 18:40:19
【问题描述】:
我有大约 250K XML 文件,每个文件都以 UUID 命名,我想对这些文件进行全文搜索并识别匹配文件的 UUID。在nodejs 环境中索引它们的最佳策略是什么?
我可以将文件导入某个数据库(比如 SQLite),然后使用全文搜索模块(在 SQLite 的情况下为 FTS5)。但我不得不以某种方式忽略 XML 标记。
或者,我可以为 nodejs 使用某种 XMLPath 模块来仅提取文本并将其与文件名一起存储在数据库中,等等。
或者,如果我可以完全避免导入数据库,那就更好了,因为这样我就不必处理将新记录导入数据库的复杂性。
欢迎提出策略建议。
【问题讨论】:
-
很大程度上取决于您的要求,包括您要将应用部署到的环境。如果您已经习惯使用 SQLite - 太好了。否则,您可能希望考虑类似 Lucene: npmjs.com/package/lucene
标签: javascript node.js xml