R Selenium - 从复杂表中提取数据的困难答案

【问题标题】：R Selenium - Difficulty Extracting Data from Complex TableR Selenium - 从复杂表中提取数据的困难
【发布时间】：2016-11-21 12:41:37
【问题描述】：

我正在尝试抓取一些足球数据。我能够遍历所有必要的网页，但我无法从每个页面获取所需的数据。我认为保存表的表是某种形式的 Java，这使得它很困难。

我正在尝试从以下网站获取每支球队的进球时间： http://www.scoreboard.com/uk/match/arsenal-west-brom-2014-2015/AyTNt38e/#match-summary|match-statistics;0|lineups;1

但我似乎无法区分存在的目标/卡片/其他事件。谁能帮助我，或者这只是这个网站上的失败原因？

我获取第一个事件（目标/卡片/其他）时间的代码是：

library("RSelenium")
startServer()
mybrowser <- remoteDriver()
mybrowser$open()
mybrowser$navigate("http://www.scoreboard.com/uk/match/arsenal-west-brom-2014-2015/AyTNt38e/#match-summary|match-statistics;0|lineups;1")

x<-mybrowser$findElements(using = 'css selector', ".time-box")
x[[1]]$getElementText()

【问题讨论】：

标签： r selenium web-scraping

【解决方案1】：

您需要选择一个特定的父元素，该元素仅包含您想要的所有元素。在这种情况下，"#summary-content div.time-box" 用作 CSS 选择器。

如果您想要事件类型，例如目标 vs 卡片 vs ...，那么您想使用 CSS 选择器 "#summary-content div.icon-box"，然后查看 DIV 元素上的另一个类。 soccer-ball 进球，y-card 黄牌，等等。例如，

<div class="icon-box soccer-ball">

这应该足以让您入门。其余的应该可以自己搞定。

【讨论】：