【发布时间】:2016-01-21 15:59:08
【问题描述】:
考虑一个包含许多下载数据链接的网页。
我想选择“r”数据格式的链接。目标是将它们与页面的源代码隔离(在我登录后)。
conn = url("http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/35536?
searchSource=find-analyze-home&sortBy=&q=GSS")
html_code <- readLines(conn)
close(conn)
html_code
html_code 的结果由数千行明显孤立的 HTML 代码组成,这些代码在 R 控制台中不可见,即使数据已正确下载。
IE。如果我将控制台的明显空板复制到文本编辑器,则 HTML 代码是可见的。因此,我很难确定我需要的信息。
如何更好地可视化下载的数据?
【问题讨论】:
标签: html r web-scraping