【发布时间】:2011-03-16 17:08:34
【问题描述】:
我正在寻找有关在大量文本中查找所有匹配项的有效算法的建议。要搜索的术语将包含在一个列表中,并且可以有 1000 多种可能性。搜索词可能是 1 个或多个词。
显然,我可以多次通过文本与每个搜索词进行比较。效率不高。
我考虑过对搜索词进行排序并组合常见的子细分。这样我就可以快速消除大量的术语。语言是 C++,我可以使用 boost。
搜索词的示例可以是财富 500 强公司名称的列表。
想法?
【问题讨论】:
-
你到底想要什么?迭代所有匹配,匹配列表(即值),仅知道文本中至少有一个术语,...?
-
我需要知道文档中是否存在哪些搜索词
标签: algorithm string search boost