【发布时间】:2021-04-02 11:15:14
【问题描述】:
抱歉,我对 R 比较陌生,还不太了解它。我还看到类似的问题被问得更频繁。但是,相应的解决方案对我不起作用(或者 - 更有可能 - 我没有让它们起作用)。 我想从报纸上抓取内容。因此,第一步,我需要从一个 url 中抓取所有文章和相应的 url。效果很好
Abendblatt <- read_html("https://www.abendblatt.de/archiv/nachrichten-vom-3-3-2016")
headline_ <- Abendblatt %>%
html_nodes(".teaser__headline") %>%
html_text()
url_ <- Abendblatt %>%
html_nodes("article") %>%
html_nodes("a") %>%
html_attr("href")
df_urls <- data.frame(headline = headline_, url = url_)
现在我有了所有文章的网址。 接下来,我想从文章中抓取特定的内容。对于一个也可以正常工作的网址
Abendblatt_Article <- read_html("https://www.abendblatt.de/vermischtes/article227980833/Tatort-Muenster-Friederike-Kempter-hoert-als-Ermittlerin-auf.html")
header_ <- Abendblatt_Article %>%
html_nodes(".article__header__headline") %>%
html_text() %>%
paste(., collapse = "")
intro_ <- Abendblatt_Article %>%
html_nodes(".article__header__intro__text") %>%
html_text() %>%
paste(., collapse = "")
text_ <- Abendblatt_Article %>%
html_nodes("p") %>%
html_text() %>%
paste(., collapse = "")
df <- data.frame(heading = header_, intro = intro_, text = text_)
但是,我想从数据框 df_urls 中遍历 url_ 中的所有 url。
谁能帮我解决这个问题?
非常感谢
詹斯
【问题讨论】:
标签: r url web-scraping rvest