【问题标题】:Scraping image titles with rvest使用 rvest 抓取图像标题
【发布时间】:2015-04-05 17:07:36
【问题描述】:

我正在尝试使用 R 中的 rvest 包和 SelectorGadget 从 Glassdoor 中提取单个评级(API 仅提供汇总评级)来识别我的 CSS 选择器。

问题是 Glassdoor 使用图像来传达评级,但数字评级包含在图像标题中。使用 SelectorGadget,我可以从下面的代码 sn-p 中抓取“Comp & Benefits”文本(使用“#EmployerReviews undecorated li”),但我无法到达 span...title= 部分中的“2.0” ,这就是我想要的。

<div id='EmployerReviews'> .... <ul class='undecorated'> <li> <div class='minor'>Comp & Benefits</div> <span class='notranslate notranslate_title gdBars gdRatings med ' title="2.0"> 

任何人过去曾成功抓取图像标题,或者知道获得这些个人评级的另一种方法吗?

【问题讨论】:

    标签: r css-selectors rvest


    【解决方案1】:

    您需要选择跨度,并使用html_attr() 提取其属性值:

    html <- html("...")
    rating <- html %>% 
      html_nodes("#EmployerReviews .undecorated li span.gdRatings") %>%
      html_attr("title")
    
    rating
    # [1] "2.0"
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-07-18
      • 1970-01-01
      • 2023-01-07
      • 2020-09-13
      相关资源
      最近更新 更多