【发布时间】:2013-04-10 05:03:39
【问题描述】:
我从第三方休息服务获得 Iframe 链接 http:\\abc.com?=blahblahiframelink。我想从该 iframe 的内容中提取多个值。
这里是简化的 html。请理解,真正的 html 要复杂得多,有多个嵌套的 div 和表
.css stuff
<html>
<div>
<p> NEED THIS INFO </p>
....
blah blah
<img src="NEED THIS INFO" > </img>
</div>
</html>
我在上面的代码中将"NEED THIS INFO"标记为我想要提取的内容,以证明我想要属性值和元素值。
我正在考虑首先将 Iframe 内容存储在我的 rest 服务中的 java 字符串中,然后使用疯狂的正则表达式来获取我想要的信息。
在我尝试之前,我想检查是否有更有效的方法来做到这一点。是否有一些 html 解析器可以用来获取结构化格式的内容。
如果没有,请告诉我如何将 iframe 存储在 Java 字符串中。
如果您需要更多信息,请告诉我。
【问题讨论】:
-
这里有一些关于使用正则表达式解析 HTML 的好技巧:stackoverflow.com/a/1732454/138256
-
Jsoup html 解析器是最好的方法。 Here 是官方文档站点。
-
您是从运行 Java 的服务器还是在浏览器中的客户端执行此操作?
-
我是从服务器执行此操作的,在将其发送到浏览器中的客户端之前,我需要进行一些处理和更多内容。
-
@codebox +1 感谢您提供有用的链接。
标签: java javascript web-applications web screen-scraping