【发布时间】:2010-11-26 01:05:54
【问题描述】:
我正在开发一个下载 HTML 页面然后选择一些信息并将其写入另一个文件的程序。
我想提取段落标签之间的信息,但我只能得到段落的一行。我的代码如下;
FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
try {
out.write(s);
} catch (IOException e) {
}
}
}
我试图添加另一个 while 循环,它会告诉程序继续写入文件,直到该行包含 </p> 标记,通过说;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
但这不起作用。有人可以帮忙吗。
【问题讨论】:
-
我们肯定看到了 SO 转义 HTML 标签的错误。
-
您是否将它们作为带有反引号的代码引用?
-
HTML 解析器确实存在,而且数量很多。
标签: java html screen-scraping html-content-extraction text-extraction