网页抓取 www.wp.pl

【问题标题】：Web-scraping www.wp.pl网页抓取 www.wp.pl
【发布时间】：2025-12-31 23:10:01
【问题描述】：

我想使用 R 从https://www.wp.pl/ 页面获取一些信息。我要获取元素：

<div class="_1bBIQG" data-st-area="Belka-opinions">

在屏幕上，它将是添加下方的第一个框：

我正在使用 rvest 库。到目前为止，这是我的代码：

library(rvest)
url <- 'https://www.wp.pl'
webpage <- read_html(url)
news_html <- html_nodes(webpage,'._1gA4wm.content div div ul li a')
head(news_html)

但它不起作用。我得到了下面的消息。怎么刮？

【问题讨论】：

你好像违反了III. 3. 三。 &四。 onas.wp.pl/zasady.html
这只是一个练习。我并不是要在任何地方使用它，所以我不认为这违反了他们的政策。
希望能说服其他人提供帮助。

标签： r web-scraping screen-scraping rvest

【解决方案1】：

您的代码对我来说很好用。我得到了链接列表就好了。

或者，尝试：

library(rvest)
url <- 'https://www.wp.pl'
webpage <- read_html(url)
links <- webpage %>% html_nodes("div._1gA4wm.content div div ul li a")
links

另外，如果您希望获得div 的完整内容，请尝试：

library(rvest)
url <- 'https://www.wp.pl'
webpage <- read_html(url)
my_div <- webpage %>% html_node("div._1gA4wm.content")
my_div

【讨论】：