【问题标题】:Web-scraping www.wp.pl网页抓取 www.wp.pl
【发布时间】:2025-12-31 23:10:01
【问题描述】:

我想使用 R 从https://www.wp.pl/ 页面获取一些信息。 我要获取元素:

<div class="_1bBIQG" data-st-area="Belka-opinions">

在屏幕上,它将是添加下方的第一个框:

我正在使用 rvest 库。 到目前为止,这是我的代码:

library(rvest)
url <- 'https://www.wp.pl'
webpage <- read_html(url)
news_html <- html_nodes(webpage,'._1gA4wm.content div div ul li a')
head(news_html)

但它不起作用。我得到了下面的消息。 怎么刮?

【问题讨论】:

  • 你好像违反了III. 3. 三。 &四。 onas.wp.pl/zasady.html
  • 这只是一个练习。我并不是要在任何地方使用它,所以我不认为这违反了他们的政策。
  • 希望能说服其他人提供帮助。

标签: r web-scraping screen-scraping rvest


【解决方案1】:

您的代码对我来说很好用。我得到了链接列表就好了。

或者,尝试:

library(rvest)
url <- 'https://www.wp.pl'
webpage <- read_html(url)
links <- webpage %>% html_nodes("div._1gA4wm.content div div ul li a")
links

另外,如果您希望获得div 的完整内容,请尝试:

library(rvest)
url <- 'https://www.wp.pl'
webpage <- read_html(url)
my_div <- webpage %>% html_node("div._1gA4wm.content")
my_div

【讨论】: