【发布时间】:2012-04-22 17:49:16
【问题描述】:
我对 JSOUP 还很陌生,我在使用 Element.select 解析标签或 id 值时没有遇到任何问题。我遇到的问题是如何筛选页面中的 javascript 代码。我在这里加载文档:
Document doc = Jsoup.connect(pageUrl)
.userAgent(Agent)
.timeout(5000)
.get();
我试图提取的 javascript 字段值如下:
arrayGPSLocation["0"] = "-19473982376,6848295867";
arrayGPSLocation["1"] = "-19473982376,6848296245";
由于这些数组值不在标准代码标记中 是 JSOUP 执行此操作的适当方式吗?我喜欢 JSOUP 的 API。唯一的其他方法是将字符串例程组合在一起...... 即:
int start = pageBuffer.indexOf("arrayGPSLocation[\" + counter + \"]");
int end = pageBuffer.indexOf(";");
String result = pageBuffer.subString(start,end);
这个伪代码示例在解析大页面时会出现严重的性能问题。有谁知道如何使用 JSOUP 来完成这项工作,或者我应该自己编写刮板吗?
【问题讨论】:
标签: javascript parsing jsoup