【发布时间】:2022-01-13 02:46:14
【问题描述】:
给定一个“大”模式列表和一个“短”文本,在文本中搜索/标记这些模式的最佳/最快方法是什么,我们试图将模式作为文本的子字符串查找?如果文本中有多个匹配模式,我们希望找到所有匹配。
更具体地说,文本实际上是流式查询,要查找的模式是命名实体。我们需要一个完整的模式来完全匹配。训练 NER 模型来标记实体不是一种选择。 “大”列表是指要查找的几十万个实体。 “短”文本是指平均 10 个单词。
例如:
文字:在复仇者联盟中扮演黑寡妇的演员。
我正在考虑尝试和 FST。试图了解在这种特定情况下两者的优缺点。任何指针将不胜感激。
【问题讨论】:
标签: search substring information-retrieval trie fst