【问题标题】:How to filter responses types in HtmlUnit?如何过滤 HtmlUnit 中的响应类型?
【发布时间】:2015-06-09 06:36:18
【问题描述】:

在抓取网页时,我收到了各种响应类型(图像/文本/html/json/css/js 等)。我只需要 .json 文件而不是其他文件。如何使用 HtmlUnit 过滤其他响应类型?

问题是:所需的数据存储在特定的 .json 文件中,并且该 .json 文件没有唯一的 url。所以我打算过滤其他响应类型并下载所有json文件的内容。稍后我会清理数据。

请帮忙。一个想法就足够了。

【问题讨论】:

    标签: java json http htmlunit


    【解决方案1】:

    您可以看到修改请求和响应,如提示here

    检查网址是否包含.json字符串,然后保存。

       new WebConnectionWrapper(webClient) {
    
            public WebResponse getResponse(WebRequest request) throws IOException {
                WebResponse response = super.getResponse(request);
                if (request.getUrl().toExternalForm().contains(".json")) {
                    String content = response.getContentAsString("UTF-8");
    
                    //save content
                }
                return response;
            }
        };
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-12-22
      • 1970-01-01
      • 2012-08-31
      • 2011-08-03
      • 2019-12-27
      • 1970-01-01
      相关资源
      最近更新 更多