【问题标题】:Modifying a Generalised Suffix Tree to hold number of times a node appears in the text string修改广义后缀树以保存节点在文本字符串中出现的次数
【发布时间】:2025-11-24 23:00:02
【问题描述】:

如何修改Ukkonen's paper 中的过程以保存一个单词在文本中出现的次数的值。有没有这样的实现也可以提供字符串频率?

我想要的修改就像一个字符串“hehe”,树中所有“h”、“e”、“he”的频率计数应该是2。其余节点的默认值为 1。

我发现了一些库,如 the best so far 和一些以前的问题,如 this

但是他们都没有描述一个足够好的解决我的问题的方法。我还必须处理一个非常大的字典文件(大约十亿字)。然后算法需要非常快。而且我准备在空间上妥协一点。

【问题讨论】:

    标签: tree suffix-tree suffix-array


    【解决方案1】:

    可以在这里找到答案:Counting the number of substrings

    基本上,构建后缀树,从根开始匹配子字符串并计算该点以下的叶节点。这是单词在文本中出现的次数。

    【讨论】:

      最近更新 更多