使用 rvest 抓取文本

【问题标题】：Scraping text with rvest使用 rvest 抓取文本
【发布时间】：2017-06-26 16:35:46
【问题描述】：

我正在尝试从以下网站抓取文本项： http://www.fangraphs.com/statss.aspx?playerid=639&position=3B
我要抓取的项目是网页顶部附近“位置：”后面的“3B”。我在下面的尝试只创建了一个空数据集，又名：
character(0)

感谢任何帮助。谢谢。

library(rvest)
url="http://www.fangraphs.com/statss.aspx?playerid=10155&position=3B"       
ret <- url %>%
    read_html() %>%
    html_nodes(xpath='//*[@id="content"]/table[1]/tbody/tr/td[1]/table/tbody/tr[1]/td/div[2]/text()[4]') %>%
    html_text()

ret

【问题讨论】：

标签： r web web-scraping rvest

【解决方案1】：

使用这个xpath：//*[@id="content"]/table[1]/tr/td[1]/table/tr[1]/td/div[2]/text()[5] 它与您的基本相同，只是它排除了tbody 标签 - 不知道为什么，找不到它的文档 - 并将最后一个索引更改为 5。

playerid=639 的结果：" 3B"

(在末尾加%>% trimws()得到"3B")

【讨论】：

@g gamba 谢谢！希望我知道将来复制该 xpath 的问题是什么。