【发布时间】:2013-07-29 03:07:46
【问题描述】:
我正在使用 Jsoup 解析 html 文件并从元素中提取所有可见文本。问题是 javascript 变量中有一些 html 位显然被忽略了。解决这些问题的最佳解决方案是什么?
例子:
<!DOCTYPE html>
<html>
<head>
<script>
var html = "<span>some text</span>";
</script>
</head>
<body>
<p>text</p>
</body>
</html>
在这个例子中,Jsoup 只从p 标签中提取文本,这是它应该做的。如何从var html span 中提取文本?该解决方案必须应用于数千个不同的页面,所以我不能依赖于具有相同名称的 javascript 变量之类的东西。
【问题讨论】:
-
至少你确定
html的内容在双引号内,并且<script>标签内的双引号内没有其他内容吗?
标签: java javascript html jsoup