【发布时间】:2014-08-06 22:08:32
【问题描述】:
我正在提取Java中的HTML源代码
DefaultHttpClient client = new DefaultHttpClient();
HttpGet httpGet = new HttpGet(url);
HttpResponse response = client.execute(httpGet);
if (response.getStatusLine().getStatusCode() == 200)
{
sourcepage = EntityUtils.toString(response.getEntity(), "UTF-8");
}
client.getConnectionManager().shutdown();
此代码是我的代码的基线,我将在 HTML 代码的每一行上执行不同的功能。但是,有些代码行太长了。例如,一行的长度是 49966,这会在运行代码时产生一些计算成本问题。我想知道是否有可能在阅读 HTML 源代码时打破 HTML 行 - 如果它的长度大于阈值?
这也是我逐行阅读代码的方式:
String[] each_line = sourcepage.split("\r?\n");
【问题讨论】:
-
你用什么编程语言做这个?
-
@Rowland Shaw 对不起,我忘了提。我正在使用 Java。
-
请显示一些额外的代码,你是如何解析响应的?
-
@Nit 我修改了帖子。您可以在那里找到更多详细信息。谢谢
-
为什么不简单地使用 HTML 解析器?