【问题标题】:get the content of the page formated as it is in nutch获取以 nutch 格式格式化的页面内容
【发布时间】:2012-01-30 06:15:28
【问题描述】:

简而言之,我正在寻找一种方法来按原样格式化页面内容(包括行、新行和段落)。

接下来的代码没有帮助,因为它删除了页面的所有格式。

Parse parse = parseResult.get(content.getUrl());    
parse.getText()

甚至

BufferedReader br = new BufferedReader(new InputStreamReader(new   
ByteArrayInputStream(content.getContent())));
while (br.readLine() != null) 
LOG.info("After br: " +br.readLine());

不是解决方案,因为它返回格式化但带有 html 标签的内容。

我真的希望它采用原始格式,以便能够将其发送到提取所需内容的方法。

谢谢

【问题讨论】:

    标签: http parsing tomcat solr nutch


    【解决方案1】:

    没有直接的方法可以做到这一点。

    根据您的需要研究和修改src\java\org\apache\nutch\segment\ContentAsTextInputFormat.java

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-09-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多