【发布时间】:2018-02-08 00:29:48
【问题描述】:
我正在尝试从雅虎财经网页中抓取 3 项给定共同基金或 ETF 代码的项目:基金名称、费用比率和净资产。我是网络抓取的新手,不熟悉 CSS 和 XML,并且阅读了有关 rvest 和 SelectorGadget 工具的信息。好消息是我几乎可以刮掉基金名称。
在本例中,我使用了代码“FNDB”。信息在这两个页面中的任何一个上 - 我会同时显示一个比另一个更容易使用的情况,但我的代码使用第一个:
这是提取标题的代码和结果:
library(rvest)
url <- "https://finance.yahoo.com/quote/FNDB?p=FNDB"
#Reading the HTML code from the website
webpage <- read_html(url)
code <- "title"
result <- html_nodes(webpage,code)
result
{xml_nodeset (1)}
[1] FNDB : Schwab Fundamental U.S. Broad M - Yahoo Finance 摘要\n
这并不完全是我想要的,因为结果包含的信息比我想要的要多,但我可以使用它。在这里的帮助将不胜感激,但我主要是在寻找有关提取净资产和费用比率信息的代码的指导。如果没有这一点,我会很感激有人指出我可以在哪里学习如何找出代码。使用 SelectorGadget 返回“未找到有效路径”。谢谢。
【问题讨论】:
-
不知道 r 是如何工作的,所以也不知道 rvest。但是您必须将此作为选择器传递给 net_assets 的“[data-test=NET_ASSETS-value] span”和费用比率的“[data-test=EXPENSE_RATIO-value] span”
标签: r web-scraping rvest