【问题标题】:htmlunit: return a completely loaded pagehtmlunit:返回一个完全加载的页面
【发布时间】:2013-06-07 03:14:38
【问题描述】:

我正在使用 Java 的 HtmlUnit 库以编程方式操作网站。我找不到我的问题的有效解决方案:如何确定所有 AJAX 调用都已完成并返回一个完全加载的网页?这是我尝试过的:

首先我创建WebClient 实例并调用我的方法processWebPage(String url, WebClient webClient)

WebClient webClient = null;
    try {
        webClient = new WebClient(BrowserVersion.FIREFOX_3_6);
        webClient.setThrowExceptionOnScriptError(false);
        webClient.setThrowExceptionOnFailingStatusCode(false);
        webClient.setJavaScriptEnabled(true);
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());
    } catch (Exception e) {
        System.out.println("Error");
    }
    HtmlPage currentPage = processWebPage("http://www.example.com", webClient);

这是我的方法,它应该返回一个完全加载的网页:

private static HtmlPage processWebPage(String url, WebClient webClient) {
    HtmlPage page = null;
    try {
        page = webClient.getPage(url);
    } catch (Exception e) {
        System.out.println("Get page error");
    }
    int z = webClient.waitForBackgroundJavaScript(1000);
    int counter = 1000;
    while (z > 0) {
        counter += 1000;
        z = webClient.waitForBackgroundJavaScript(counter);
        if (z == 0) {
            break;
        }
        synchronized (page) {
            System.out.println("wait");
            try {
                page.wait(500);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }
    System.out.println(page.asXml());
    return page;
}

如果没有 JavaScript 可以加载,z 变量应该返回 0

有什么想法吗?提前致谢。

编辑:我找到了部分可行的解决方案来解决我的问题,但在这种情况下,我应该知道响应页面的外观。例如,如果一个完全加载的页面包含文本“完成”,我的解决方案是:

HtmlPage page = null;
    int PAGE_RETRY = 10;
    try {
        page = webClient.getPage("http://www.example.com");
    } catch (Exception e) {
        e.printStackTrace();
    }
    for (int i = 0; !page.asXml().contains("complete") && i < PAGE_RETRY; i++) {
        try {
            Thread.sleep(1000 * (i + 1));
            page = webClient.getPage("http://www.example.com");
        } catch (Exception e) {
            e.printStackTrace();
        }

    }

但是,如果我不知道完全加载的页面是什么样子的,那么解决方案是什么?

【问题讨论】:

    标签: java htmlunit


    【解决方案1】:

    试试这个:

    HtmlPage page = null;
    try {
        page = webClient.getPage(url);
    } catch (Exception e) {
        System.out.println("Get page error");
    }
    JavaScriptJobManager manager = page.getEnclosingWindow().getJobManager();
    while (manager.getJobCount() > 0) {
        Thread.sleep(1000);
    }
    System.out.println(page.asXml());
    return page;
    

    【讨论】:

    • 有时加载所有脚本需要很长时间,但它可以工作,谢谢!
    • 只是一个评论,即使帖子我老了,当你的页面上运行计时器时,我发现问题。因此,即使使用 waitforBackground 方法,您也要等待参数中给出的时间结束。
    • 我已经在遇到此问题的两个不同页面上尝试了这种方法。它适用于第一页,但对于第二页,作业计数不会低于 5。使用 manager.stopJob(manager.getEarliestJob().getId()) 停止作业也无济于事。有什么建议吗?
    • 我和@Jack 有同样的问题。某些页面上的作业计数未达到零。
    猜你喜欢
    • 1970-01-01
    • 2016-09-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-06-10
    • 2014-08-09
    • 1970-01-01
    • 2014-03-25
    相关资源
    最近更新 更多