使用 rvest 和 purrr::map_df 构建数据框:处理多元素标签
(基于我自己的问题及其@astrofunkswag here 的回答) 我正在使用rvest 抓取网页,并使用purrr::map_df 将收集的数据转换为数据框。我遇到了map_df 仅选择具有多个元素的html标签的第一个元素的问题。理想情况下,我希望在结果数据框中捕获标签的所有元素,并回收具有较少元素的标签。 取以下代码: library(rvest) library(tidyver... »
(基于我自己的问题及其@astrofunkswag here 的回答) 我正在使用rvest 抓取网页,并使用purrr::map_df 将收集的数据转换为数据框。我遇到了map_df 仅选择具有多个元素的html标签的第一个元素的问题。理想情况下,我希望在结果数据框中捕获标签的所有元素,并回收具有较少元素的标签。 取以下代码: library(rvest) library(tidyver... »
我正在尝试抓取以下网站的数据框 http://stats.nba.com/game/0041700404/playbyplay/ 我想创建一个表格,其中包含比赛日期、整个比赛的得分以及球队名称 我正在使用以下代码: game1 <- read_html("http://stats.nba.com/game/0041700404/playbyplay/") #Extracts the... »
我正在尝试使用 rvest 从ASX 中获取期权价格,我希望有人帮助我管理我的代码。我想管道并最终得到一个数据框。 上面链接的页面有两个表格,第一个表格包含股价信息,第二个表格包含所有选项。当我运行以下代码时,我得到第二个表的数据框: html <- read_html("http://www.asx.com.au/asx/markets/optionPrices.do?by=under... »
我实际上想提取此链接中每个class 的capacity (seats) 属性。这是实际链接https://ssb.bannerprod.memphis.edu/prod/bwckschd.p_get_crse_unsec 如果发布的链接不起作用:请这样做 In this link `https://ssb.bannerprod.memphis.edu/prod/bwckschd.p_disp_d... »
我希望使用 R 从化学数据库中抓取一些数据,目前主要是 name、CAS Number 和 molecular weight。但是,我无法让rvest 提取我正在寻找的信息。这是我到目前为止的代码: library(rvest) library(magrittr) # Read HTML code from website # I am using this format because I ... »
我正在尝试使用 rvest 下载 [完整的] 动态扩展的 [holdings] 表,但收到 Unknown field names 错误。 s <- html_session("http://innovatoretfs.com/etf/?ticker=ffty") f <- html_form(s)[[1]] #the following line fails: f.new <... »
我正在尝试从 R 中唯一格式的 XML 消息创建数据帧。下面是消息的 sn-p: 000 SXUS70 KWNB 140043 PROG 045004300<?xml version="1.0" encoding="ISO-8859-1"?><XYZ><pn>901392</pn><gpslat>40</gpslat>&... »
好的,所以我被困在看似简单的网络抓取上。我的目标是抓取 Morningstar.com 以根据输入的 url 检索基金名称。这是我的代码示例: library(rvest) url <- html("http://www.morningstar.com/funds/xnas/fbalx/quote.html") url %>% read_html() %>% html... »
目标:使用 R 从以下网站抓取表格。 网站:https://evanalytics.com/mlb/models/teams/advanced 我遇到了什么问题: 我使用 rvest 来自动化我的大部分数据收集过程,但是这个特定的站点似乎超出了 rvest 的工作范围(或者至少超出了我的经验水平)。不幸的是,当页面打开时,它不会立即加载表格。我试图通过 RSelenium 提出一个解决方案,但... »
这对某些人来说可能非常简单。但我无法理解它。我正在尝试从网站中提取价格和其他信息。 Link 我正在使用 Rvest 进行抓取。我不是来自 CS 背景,所以我无法理解将使用的 html 节点的类输入。我正在“类似酒店”部分寻找类似酒店的价格。我的代码尝试如下。请让我知道我的代码中的缺点。 url='http://www.yatra.com/hotels/hotels-in-coorg/cl... »
我有一个 URL 向量 library(rvest) URLs <-c("https://www.espn.com/f1/story/_/id/31287940/norris-made-step-says-mclaren", "https://www.espn.com/f1/story/_/id/31287893/vettel-calls-fia-not-very-professional-... »
我是一个绝对的 R 初学者,我一直在尝试从this Sprinter Sports page抓取鞋子价格,最终目标是拥有一个每天自动加载的数据集, (i) 我感兴趣的鞋子的原价和 (ii) 折扣价。 问题在于,目前在售的 24 款鞋子中,只有 16 款同时具有“原价”和“折扣”价格。其余 8 个没有“折扣”价格,因为它们没有以折扣价出售。由于“原始”列有 24 个观察值,而“折扣”列只有 16 个... »
我正在尝试用 R 解析 HTML 以提取一些货币汇率。它们只有在点击网页中心的按钮后才能看到(抱歉,它是俄语的)。 到目前为止,我已经尝试了 Rselenium 和 rvest,但它们都不允许我使用这个 css:“tr:nth-child(2) td”。 如果我试试这个: library("RSelenium") startServer() mybrowser <- remoteDri... »
我正在处理一个数据框(称为 full_df),其中包含我想用来抓取两个其他链接的链接。这是数据框的示例: structure(list(CIK = c("1082339", "1276755", "1280511"), COMPANY_NAME = c("COLDSTREAM CAPITAL MANAGEMENT INC", "CHELSEA COUNSEL CO", "QUANTUM CAPI... »
我抓取this 页面以获取其中列出的每个人的 (1) 姓名、(2) 角色/编辑头衔和 (3) 所属机构。 问题是有些人没有机构隶属关系。我想用NA 替换这些缺失值,但我的尝试都没有奏效。 感谢您的帮助!到目前为止,这是我的代码: journal_url <- "https://www.journals.elsevier.com/academic-pediatrics/editoria... »
我在这里看到了类似的问题并实施了解决方案,但似乎仍然无法解决这个问题。还是一个 R 新手,所以请多多包涵:我已经使用 rvest 从this website 获得了一张巴拉克奥巴马的演讲表: library(rvest) page <- read_html("http://www.americanrhetoric.com/barackobamaspeeches.htm") speeches... »
我正在尝试应用一个从抓取的链接列表中提取表格的函数。我正处于将get_injury_data 函数应用于链接的最后阶段——我在成功执行此操作时遇到了问题。我收到以下错误: Error in matrix(unlist(values), ncol = width, byrow = TRUE) : 'data' must be of a vector type, was 'NULL'... »
我希望从在线留言板上抓取一些信息。 目前我正在使用: html_nodes(conv,'.talk-post.message') %>% html_text(trim = TRUE) 消息:我现在回来了,正在慢慢恢复速度。 这给出: "\n我现在回来了,正在慢慢恢复速度。\n" 效果很好,但会删除所有 html 格式。我想保留文本有斜体标签的指示(类似下划线和粗体... »
我正在尝试从http://www.morningstar.com/funds/xnas/adafx/quote.html 网站抓取特定基金的总资产(在这种情况下为 ADAFX)。但结果总是字符(空);我做错了什么? 我以前使用过 rvest,结果好坏参半,所以我想有时间从值得信赖的大师(就是你)社区获得专家帮助。 library(rvest) Symbol.i ="ADAFX" ... »
我正在尝试将我的 Facebook 聊天消息从 .htm 文件提取到适当的数据框中。 Rvest 通过将 html 节点(用户、元、p)提取到向量然后 df 中为我提供了很好的服务。但是,我被困在这部分: <div class="thread"> John, My Name" <div class="message"> <div cl... »