【发布时间】:2019-04-08 14:54:02
【问题描述】:
我曾经有一个功能可以从google news 抓取标题,但似乎他们改变了他们的 CSS 或其他东西。它不再起作用了。
这是我最接近修复它的尝试:
library('rvest')
library('tidyverse')
headlines <- function(){
message("Here are some of today's headlines:")
html <- read_html("https://news.google.com/news/?ned=us&gl=US&hl=en")
headlines = html %>%
html_nodes(".SbNwzf") %>%
html_text()
for(i in 1:10){
cat(paste("\t",headlines[i],"\n\n"))
Sys.sleep(1.3)
}
headlines
}
headlines()
这与我想要的非常接近,但我希望只获得头条新闻。似乎这也是文章的第一部分。
另外,如果有人有办法只获取每个框的顶部标题,那将是更可取的。正在尝试节点“.VDXfz”,但它返回空白。我正在使用selector gadget
谢谢!
【问题讨论】:
-
也许this 的回答会有用
-
@Didi 感谢您的建议,但这对我不起作用。然而,它确实给了我一些尝试新事物的动力,我解决了它。谢谢!
标签: r web-scraping rvest