【发布时间】:2018-11-26 19:10:42
【问题描述】:
我正在尝试使用 Rvest 和 Selectorgadget 从在线搜索中提取公开可用的房屋描述,并尝试遵循一些在线教程来抓取网络,但我没有得到任何返回。如果有人能指出我正确的方向,将不胜感激!
Site <- "https://paol.snb.ca/paol.html?lang=en&pan=00100004"
snb <- read_html(Site)
snb %>% html_nodes("dd") %>% html_text()
【问题讨论】:
-
那个网站有很多 JavaScript 事情正在发生(包括使用模式),所以数据可能是动态加载的,而不是 rvest 抓取的源。如果是这样并且允许抓取,则您需要使用更强大的东西,例如 splashr 或 RSelenium 来运行 JavaScript。
-
感谢 alistair,我自己得出了这个结论,我尝试下载 Rselenium,但由于错误而无法安装:*** arch - x64 错误:'i386' 加载失败。我会在此期间尝试 splashr。
标签: html r web-scraping html-parsing rvest