【发布时间】:2012-01-30 06:15:28
【问题描述】:
简而言之,我正在寻找一种方法来按原样格式化页面内容(包括行、新行和段落)。
接下来的代码没有帮助,因为它删除了页面的所有格式。
Parse parse = parseResult.get(content.getUrl());
parse.getText()
甚至
BufferedReader br = new BufferedReader(new InputStreamReader(new
ByteArrayInputStream(content.getContent())));
while (br.readLine() != null)
LOG.info("After br: " +br.readLine());
不是解决方案,因为它返回格式化但带有 html 标签的内容。
我真的希望它采用原始格式,以便能够将其发送到提取所需内容的方法。
谢谢
【问题讨论】:
标签: http parsing tomcat solr nutch