【发布时间】:2015-06-09 06:36:18
【问题描述】:
在抓取网页时,我收到了各种响应类型(图像/文本/html/json/css/js 等)。我只需要 .json 文件而不是其他文件。如何使用 HtmlUnit 过滤其他响应类型?
问题是:所需的数据存储在特定的 .json 文件中,并且该 .json 文件没有唯一的 url。所以我打算过滤其他响应类型并下载所有json文件的内容。稍后我会清理数据。
请帮忙。一个想法就足够了。
【问题讨论】:
在抓取网页时,我收到了各种响应类型(图像/文本/html/json/css/js 等)。我只需要 .json 文件而不是其他文件。如何使用 HtmlUnit 过滤其他响应类型?
问题是:所需的数据存储在特定的 .json 文件中,并且该 .json 文件没有唯一的 url。所以我打算过滤其他响应类型并下载所有json文件的内容。稍后我会清理数据。
请帮忙。一个想法就足够了。
【问题讨论】:
您可以看到修改请求和响应,如提示here。
检查网址是否包含.json字符串,然后保存。
new WebConnectionWrapper(webClient) {
public WebResponse getResponse(WebRequest request) throws IOException {
WebResponse response = super.getResponse(request);
if (request.getUrl().toExternalForm().contains(".json")) {
String content = response.getContentAsString("UTF-8");
//save content
}
return response;
}
};
【讨论】: