使用 rvest 抓取图像标题答案

【问题标题】：Scraping image titles with rvest使用 rvest 抓取图像标题
【发布时间】：2015-04-05 17:07:36
【问题描述】：

我正在尝试使用 R 中的 rvest 包和 SelectorGadget 从 Glassdoor 中提取单个评级（API 仅提供汇总评级）来识别我的 CSS 选择器。

问题是 Glassdoor 使用图像来传达评级，但数字评级包含在图像标题中。使用 SelectorGadget，我可以从下面的代码 sn-p 中抓取“Comp & Benefits”文本（使用“#EmployerReviews undecorated li”），但我无法到达 span...title= 部分中的“2.0” ，这就是我想要的。

<div id='EmployerReviews'> .... <ul class='undecorated'> <li> <div class='minor'>Comp & Benefits</div> <span class='notranslate notranslate_title gdBars gdRatings med ' title="2.0">

任何人过去曾成功抓取图像标题，或者知道获得这些个人评级的另一种方法吗？

【问题讨论】：

标签： r css-selectors rvest

【解决方案1】：

您需要选择跨度，并使用html_attr() 提取其属性值：

html <- html("...")
rating <- html %>% 
  html_nodes("#EmployerReviews .undecorated li span.gdRatings") %>%
  html_attr("title")

rating
# [1] "2.0"

【讨论】：