【发布时间】:2016-05-10 08:25:42
【问题描述】:
我正在尝试抓取以下网站:
http://services2.hdb.gov.sg/webapp/BB33RTIS/BB33SSearchWidget
我正在连接到该站点并解析 html 表,如下所示:
Document doc = Jsoup
.connect("http://services2.hdb.gov.sg/webapp/BB33RTIS/BB33SSearchWidget")
.data("FLAT_TYPE", "02")
.data("NME_NEWTOWN", "BD Bedok")
.data("NME_STREET", "")
.data("NUM_BLK_FROM", "")
.data("NUM_BLK_TO", "")
.data("dteRange", "12")
.data("DTE_APPROVAL_FROM", "May 2015")
.data("DTE_APPROVAL_TO", "May 2016")
.data("AMT_RESALE_PRICE_FROM", "")
.data("AMT_RESALE_PRICE_TO", "")
.data("Process", "continue")
.cookies(cookies)
.timeout(0)
.post();
Element table = doc.getElementsByTag("table").first();
我也尝试了以下方法,但表格仍然为空:
Element tableBody = doc.select("div[class=content]").select("table").first();
但是桌子总是空的。请有人告诉我哪里做错了。 提前致谢。
【问题讨论】:
-
因为您的last post 已添加脚本到站点以阻止机器人。请参阅@Martic 的帖子了解可行的解决方案
-
@nyname00 很有趣。 :) Martic 的解决方案对我有用。谢谢。
标签: html web-crawler jsoup