【发布时间】:2011-12-02 13:48:07
【问题描述】:
我想对网页浏览器源代码中看到的 html 进行网页抓取,对于这个网址“https://portal.tirol.gv.at/wisPvpSrv/wisSrv/wis/wbo_wis_auszug.aspx ?ATTR=Y&TREE=N&ANL_ID=T20889658R3&TYPE=0"。
我得到了什么..
library(RCurl)
library(XML)
myurl = "https://portal.tirol.gv.at/wisPvpSrv/wisSrv/wis/wbo_wis_auszug.aspx?ATTR=Y&TREE=N&ANL_ID=T20889658R3&TYPE=0"
x = getURL(myurl, followlocation = TRUE, ssl.verifypeer = FALSE)
htmlParse(x, asText = TRUE)
..不是我在浏览器源代码中看到的 - 如何规避这个??
【问题讨论】:
-
您似乎需要用户名和密码才能访问该网站。
标签: asp.net r web-scraping