【发布时间】:2011-02-04 22:08:22
【问题描述】:
我目前正在使用一个自动化框架,该框架将网页拉下以进行分析,然后将其呈现为字符串以进行处理。 Rhino Javascript 引擎可用于协助解析返回的网页。
似乎如果字符串(这是一个完整的网页)可以加载到 DOM 表示中,它将为解析和分析内容提供一个非常好的接口。
仅使用 Javascript,这是一个可能和/或可行的概念吗?
编辑:
我将分解问题以澄清:假设我在 javascript 中有一个包含 html 的字符串,如下所示:
var $mywebpage = '<!DOCTYPE HTML PUB ...//snipped//... </body></html>';
以某种方式将其加载到 dom 对象中是否可能/现实?
【问题讨论】:
-
如果我理解正确,您可以将 html 字符串附加到文档的正文
document.body.innerHTML="string"
标签: javascript dom web-crawler rhino web-scraping