【发布时间】:2025-11-24 23:00:02
【问题描述】:
如何修改Ukkonen's paper 中的过程以保存一个单词在文本中出现的次数的值。有没有这样的实现也可以提供字符串频率?
我想要的修改就像一个字符串“hehe”,树中所有“h”、“e”、“he”的频率计数应该是2。其余节点的默认值为 1。
我发现了一些库,如 the best so far 和一些以前的问题,如 this。
但是他们都没有描述一个足够好的解决我的问题的方法。我还必须处理一个非常大的字典文件(大约十亿字)。然后算法需要非常快。而且我准备在空间上妥协一点。
【问题讨论】:
标签: tree suffix-tree suffix-array