【发布时间】:2021-10-18 19:40:35
【问题描述】:
我正在尝试使用 Selector 小工具从 this website 上的“Printer-Friendly Minutes”链接中抓取 href。通常可以,但这次我只是用一个空字符代替我要抓取的 href。
代码如下:
url <- "http://www.richmond.ca/cityhall/council/agendas/council/2021/012521_minutes.htm"
try <- url %>% read_html %>% html_nodes(".first-child a") %>% html_attr("href")
有人知道可能出了什么问题吗?
【问题讨论】:
-
如果您查看页面的源代码,则没有使用类
first-child。该值可能是由加载后在页面上运行的 javascript 添加的。rvest无法运行 javascript。确保您查看“来源”选项卡以查看rvest可以看到的内容,而不是“元素”选项卡。如果您需要能够运行 javascript 来获取所需的值,那么您应该考虑改用 RSelenium 之类的东西。 -
谢谢!我不知道元素和来源之间的区别。在 Sources 选项卡中,我看到了我想要的 href (href="/__shared/assets/PFM_CNCL_01252157630.pdf" target="_blank">Printer-Friendly Minutes) - 你认为我可以吗以某种方式使用 rvest 抓住这个,还是我仍然需要使用 RSelenium?
-
@MrFlick 这类问题通常是这种情况,但这里的问题只是节点选择不正确。这一切都可以通过静态 http 方法完成。
标签: r web-scraping rvest