【发布时间】:2017-10-27 23:11:54
【问题描述】:
我正在尝试使用 R 从a website 中抓取数据。我正在使用rvest 来模仿an example scraping the IMDB page for the Lego Movie。该示例提倡使用名为Selector Gadget 的工具来帮助轻松识别与您要提取的数据相关联的html_node。
我最终对构建具有以下架构/列的数据框感兴趣:
rank、blog_name、facebook_fans、twitter_followers、alexa_rank。
我的代码如下。我能够使用 Selector Gadget 正确识别乐高示例中使用的 html 标签。但是,按照与乐高示例相同的过程和相同的代码结构,我得到了 NA (...using firstNAs introduced by coercion[1] NA
)。我的代码如下:
data2_html = read_html("http://blog.feedspot.com/video_game_news/")
data2_html %>%
html_node(".stats") %>%
html_text() %>%
as.numeric()
我还尝试过:html_node("html_node(".stats , .stats span")),它似乎适用于“Facebook 粉丝”列,因为它报告了 714 场比赛,但只返回 1 个号码。
714 matches for .//*[@class and contains(concat(' ', normalize-space(@class), ' '), ' stats ')] | .//*[@class and contains(concat(' ', normalize-space(@class), ' '), ' stats ')]/descendant-or-self::*/span: using first{xml_node}
<td>
[1] <span>997,669</span>
【问题讨论】:
标签: r web-scraping html-parsing rvest