【问题标题】:Scraping text with rvest使用 rvest 抓取文本
【发布时间】:2017-06-26 16:35:46
【问题描述】:

我正在尝试从以下网站抓取文本项: http://www.fangraphs.com/statss.aspx?playerid=639&position=3B
我要抓取的项目是网页顶部附近“位置:”后面的“3B”。我在下面的尝试只创建了一个空数据集,又名:
character(0)

感谢任何帮助。谢谢。

library(rvest)
url="http://www.fangraphs.com/statss.aspx?playerid=10155&position=3B"       
ret <- url %>%
    read_html() %>%
    html_nodes(xpath='//*[@id="content"]/table[1]/tbody/tr/td[1]/table/tbody/tr[1]/td/div[2]/text()[4]') %>%
    html_text()

ret

【问题讨论】:

    标签: r web web-scraping rvest


    【解决方案1】:

    使用这个xpath//*[@id="content"]/table[1]/tr/td[1]/table/tr[1]/td/div[2]/text()[5] 它与您的基本相同,只是它排除了tbody 标签 - 不知道为什么,找不到它的文档 - 并将最后一个索引更改为 5。

    playerid=639 的结果:" 3B"

    (在末尾加%&gt;% trimws()得到"3B")

    【讨论】:

    • @g gamba 谢谢!希望我知道将来复制该 xpath 的问题是什么。
    猜你喜欢
    • 2023-03-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-07-18
    • 1970-01-01
    • 2023-01-07
    • 1970-01-01
    相关资源
    最近更新 更多