【发布时间】:2011-10-02 02:11:51
【问题描述】:
我一直在使用 Jsoup 从网站上抓取 HTML 数据,但是我需要获取 JavaScript 标记内的一段 XML,因为它有一堆 URL,我需要提取并下载图像。这是它的样子:
<script type="text/javascript">
var xmlTxt = '<?xml version="1.0" encoding="UTF-8" standalone="yes"?><mediaObject><mediaList rail="1"><carMedia thumbnail="http://images.blah.com/scaler/80/60/images/2011/9/22/307/179/22343202654.307179719.IM1.MAIN.565x421_A.562x421.jpg" url="http://images.blah.com/scaler/544/408/images/2011/9/22/307/179/22343202654.307179719.IM1.MAIN.565x421_A.562x421.jpg" type="INV_PHOTO" mediaLabel="" category="UNCATEGORIZED" sequence="2"/></mediaList></mediaObject>';'
紧随其后的是脚本标签内的一大堆javascript代码。如果我有 Jsoup Document,从页面中提取这些 URL 的最佳方法是什么?如果我不能用 Jsoup 做到这一点,我该怎么做?问题是图像保存在轮播中,因此页面上的 HTML 仅显示当前显示在轮播中的图像的来源。
【问题讨论】:
标签: android html xml parsing jsoup