【发布时间】:2018-01-02 16:29:06
【问题描述】:
我正在尝试从 Wikipedia 上抓取表格,但我陷入了僵局。我以 FIFA 2014 世界杯的阵容为例。在这种情况下,我想从“2014 FIFA 世界杯阵容”页面的目录中提取参与国家的列表并将它们存储为向量。以下是我的成绩:
library(tidyverse)
library(rvest)
library(XML)
library(RCurl)
(Countries <- read_html("https://en.wikipedia.org/wiki/2014_FIFA_World_Cup_squads") %>%
html_node(xpath = '//*[@id="toc"]/ul') %>%
htmlTreeParse() %>%
xmlRoot())
这会吐出一堆我不会在这里复制/粘贴的 HTML 代码。我特别希望提取带有标签<span class="toctext"> 的所有行,例如“A 组”、“巴西”、“喀麦隆”等,并将它们保存为向量。什么功能可以做到这一点?
【问题讨论】:
标签: html r web-scraping