【发布时间】:2016-11-23 09:43:06
【问题描述】:
我正在使用带有 Elastic Search 的 Nutch 1.12,我想动态添加一个字段到 NutchDocument。
目前,我可以将静态字段值添加到 NutchDocument 并能够将其索引到 Elastic Search。
这是我的索引过滤器的代码 sn-p:
public class CustomIndexFilter implements IndexingFilter {
private Configuration conf;
public Configuration getConf() {
return conf;
}
public void setConf(Configuration conf) {
this.conf = conf;
}
@Override
public NutchDocument filter(NutchDocument doc, Parse parse, Text url, CrawlDatum datum, Inlinks inlinks) {
String content = parse.getText();
doc.add("pageLength", content.length());
return doc;
}
}
我认为NutchDocument是解析后创建的。所以,在此之前需要提供字段值(不知道我应该在哪里提供这个)。寻求解决方法。
任何帮助将不胜感激:)
【问题讨论】:
标签: indexing web-crawler nutch