【发布时间】:2012-09-23 18:12:35
【问题描述】:
我尝试从从文本文档中提取的模式中提取 ngram, 模式有不同数量的术语。
例如: 如果模式 p={t1,t2,t3}
我们需要提取 ngram 3
应该是这样的
t1
t2
t3
t1, t2
t2,t3
t1,t2,t3
我写了一些代码,但效果不好。
public Hashtable<String, Pattern> findGrams(XMLDocument d) {
ArrayList<Pattern> patterns = d.getPatterns();
System.out.println("patterns " + d.getPatterns());
ArrayList terms = new ArrayList();
Hashtable Grams = new Hashtable();
String s = "";
// to extract all terms from the pattern
for (int i = 0; i < patterns.size(); i++) {
Pattern pat = (Pattern) patterns.get(i);
terms.clear();
for (int z = 0; z < pat.getNumitems(); z++) {
terms.add(pat.getItems().get(z).toString());
}
// to generate grams from the pattern
int j = 0;
int x=0;
for (int y = 1; y <= ngram ; y++) {
for ( x = 0; x < terms.size() & j != y; x++) {
s = terms.get(x).toString();
if (y > 1) {
for (j = x + 1; j < terms.size() & terms.indexOf(j) < ngram; j++) {
s = s + "," + terms.get(j).toString();
}
}
if (!Grams.contains(s)) {
System.out.println(s);
Grams.put(s, i);
}
}
}
}
return (Grams);
}
请帮忙,
【问题讨论】:
-
我发现很难弄清楚你在这里要求什么。您能否提供一个具有给定输入和预期输出的具体示例?
-
例如:如果模式 p={t1,t2,t3} 并且我们需要提取 ngram 3,对于 ngram 1 : t1 然后 t2 然后 t3 对于 ngram 2: t1 应该是这样的, t2 然后 t2,t3 用于 ngram 3:t1,t2,t3
-
这是作业吗?它可能与stackoverflow.com/questions/3656762/…重复?
-
不,这不是家庭作业,而是项目的一部分
-
这段代码存在很多基本问题。我建议您看一下@radimpe 对先前 SO 问题的链接。您可以根据该问题中的解决方案修改您的代码。应该不难弄清楚。