【发布时间】:2011-12-13 14:30:43
【问题描述】:
一位学术同事要求我从一个网站中提取信息,我需要在该网站上链接一个表格中的网页内容——对于只能访问的文本文件的内容来说并不难(就我而言可以告诉)通过点击一个javascript链接......例如
<a id="tk1" href="javascript:__doPostBack('tk1$ContentPlaceHolder1$grid$tk$OpenFileButton','')">
该表方便地位于 id='tk1' 的表内,这很好...但是我如何点击拉取文本文件的链接。
理想情况下,我想在 R 中执行此操作...我可以通过说来获取文本格式的相关表格
u <- the url of interest...
library(XML)
tables = readHTMLTable(u)
interestingTable <- tables[grep('tk1', names(tables))]
这将给出表格中的文本,但我如何获取该特定表格的 html?以及如何“单击”按钮并获取其背后的文本文件?
我注意到有一个包含大量隐藏值的表单 - 该站点似乎是由 asp.net 驱动的,并且使用难以穿透的 URL。
非常感谢!
【问题讨论】:
标签: r html-parsing