【发布时间】:2015-11-11 16:33:58
【问题描述】:
警告:新手在这里。我会很感激一些指导。我正在尝试投资学习如何使用 R 实现下载自动化。
我需要什么: 从本网站下载所有县和报告期的页岩气井数据: https://www.paoilandgasreporting.state.pa.us/publicreports/Modules/Production/ProductionByCounty.aspx (注意,进入时可能会询问是否同意,没什么大不了的)
我可以访问列出我要下载的所有 CSV 文件的页面。不幸的是,该站点的地址与上述相同。 (您可以尝试选择一个县和一个报告期,自己看看)
但是,一旦进入该页面,就会列出激活 CSV 下载的链接。对于他们每个人来说都是这样的: https://www.paoilandgasreporting.state.pa.us/publicreports/Modules/Production/ProductionByCountyExport.aspx?UNCONVENTIONAL_ONLY=false&INC_HOME_USE_WELLS=true&INC_NON_PRODUCING_WELLS=true&PERIOD=15AUGU&COUNTY=ALLEGHENY
我尝试过的:
library(downloader)
download ("https://www.paoilandgasreporting.state.pa.us/publicreports/Modules/Production/ProductionByCountyExport.aspx?UNCONVENTIONAL_ONLY=false&INC_HOME_USE_WELLS=true&INC_NON_PRODUCING_WELLS=true&PERIOD=15AUGU&COUNTY=ALLEGHENY",
destfile="Prod_AUG15_Allegheny.csv")
我关注了另一个人在这里所做的事情: Download documents from aspx web page in R
问题: 此命令保存网站而不是 csv 文件。
trying URL 'https://www.paoilandgasreporting.state.pa.us/publicreports/Modules/Production/ProductionByCountyExport.aspx?UNCONVENTIONAL_ONLY=false&INC_HOME_USE_WELLS=true&INC_NON_PRODUCING_WELLS=true&PERIOD=15AUGU&COUNTY=ALLEGHENY'
Content type 'text/html; charset=utf-8' length 11592 bytes (11 Kb)
opened URL
downloaded 11 Kb
问题: 它与我的页面是 https 而不是 http 有关吗? 关于如何解决它或其他相关帖子的任何指导? (我可以找到一些关于 aspx 下载的帖子,但没有任何帮助)
提前致谢
【问题讨论】:
-
它使用 SharePoint 并跟踪会话信息和“查看状态”信息(在 hades 中有一个特殊的位置用于 microsoft web ppl)。您需要使用 selenium 并使用“点击”来自动下载数据。
-
感谢 hrbrmstr!我正在检查此选项,但我更愿意尝试使用 R,因为我正在进行投资。但是,我现在明白了,当它打开 URL 时,我必须将视图状态信息和会话提供给 R。将寻找有关此的信息。欢迎任何其他 cmets!
-
哦,你仍然可以在 R 中做到这一点cran.rstudio.org/web/packages/RSelenium/vignettes/…
-
哦,这里是心灵感应。我去找找,谢谢!
标签: asp.net r csv https download