【发布时间】:2013-03-14 12:41:21
【问题描述】:
我正在尝试下载以下网站的完整源代码: http://www.carnegiehall.org/Students/.
我要提取的信息是以下部分:
卡内基音乐厅礼物
2013 年 3 月 28 日,星期四 |晚上 7 点 30 分
劳伦斯·布朗利
马丁·卡茨
赞克尔大厅
查看源代码显示该文本的以下代码块:
<div class="info-col">
<div class="up-lic">Carnegie Hall Presents</div>
<div class="date">Thursday, March 28, 2013 | 7:30 PM</div>
<div class="clearfix"></div>
<div class="title color">
<a href="/Calendar/2013/3/28/0730/PM/Lawrence-Brownlee-Martin-Katz/">Lawrence Brownlee<BR>Martin Katz</a>
</div>
<div class="clearfix"></div>
<div class="location"> Zankel Hall</div>
<div class="clearfix"></div>
<br />
当我在 R 中运行以下内容时丢失了:
htmlParse(getURL("http://www.carnegiehall.org/Students", .opts = curlOptions(followlocation=TRUE)), asText = TRUE)
谁能告诉我我做错了什么?
【问题讨论】:
标签: r html-parsing