【发布时间】:2011-08-28 00:00:03
【问题描述】:
我有一个大约 300 到 500 个字的文本。另外我得到了大约 200k 个关键字,我想知道每个关键字是否都包含在文本中。 String 包含 ist 很慢,有什么方法可以预处理 String 吗?
我考虑过使用 SuffixTree,但我不确定这是最佳选择。
另外,有没有适合这个任务的库?例如,semanticdiscoverytoolkit 有一个后缀树实现,但是在添加字符串后,我不知道如何查找树中是否包含字符串。
你好,
尼哥
【问题讨论】:
-
关键字是整个词还是词的一部分?
-
大部分时间都是整个单词。正文是pubmed的摘要,关键词是已知基因和疾病