【发布时间】:2013-10-02 12:56:16
【问题描述】:
我想使用 R 下载任何雅虎财经头条网页的 HTML 代码,选择“头条”并在 Excel 中收集它们。不幸的是,将源文件下载到 R 后,我无法找到并选择与标题对应的 HTML 节点。
让我用一个例子来说明问题。 我开始了
source <- "http://finance.yahoo.com/q/h?s=AAPL+Headlines"
file <- "destination/finance_file.cvs"
download.file(url = source, destfile = file)
x = scan(file, what = "", sep = "\n")
生成 Excel 文件 finance_file.cvs,最重要的是,生成字符 x。
使用x 我想收集标题并将它们写入第二个Excel 文件中的一列,名为headlines.cvs。
我现在的问题如下:如果我选择任何标题,我可以在网页本身的 HTML 代码中找到它,但我在 x 中丢失了它的踪迹。因此,我不知道如何提取它。
对于我正在考虑的提取
x = x[grep("some string of characters to do the job", x)]
但我不是网络抓取方面的专家。 有什么想法/建议吗?
非常感谢!
【问题讨论】:
-
您的网址不正确:您可能想要
http://finance.yahoo.com/q/h?s=AAPL+Headlines,使用h(标题)而不是ks(关键统计信息)。 -
你是对的:我编辑了 OP。谢谢!
标签: html r web web-scraping