【发布时间】:2011-11-17 01:53:43
【问题描述】:
使用什么算法来查找 ngram?
假设我的输入数据是一个单词数组和我想找到的 ngram 的大小,我应该使用什么算法?
我要代码,优先使用 R。数据存储在数据库中,因此也可以是 plgpsql 函数。 Java 是一种我比较熟悉的语言,所以我可以将它“翻译”成另一种语言。
我并不懒惰,我只是要求代码,因为我不想重新发明轮子来尝试做一个已经完成的算法。
编辑:重要的是要知道每个 n-gram 出现了多少次。
编辑 2:有用于 N-GRAMS 的 R 包吗?
【问题讨论】:
-
有一个文本挖掘包(
tm)和一个textcat包...library("sos"); findFn("n-gram")