【发布时间】:2014-03-22 03:52:35
【问题描述】:
在下面的链接中,我想进入每个子页面并将 HTML 表解析为单个 .html 文件。此外,例如,如果我单击会计子页面,该子页面有多个课程列表页面(第 1、2、3 页等)。我也想解析子页面的所有页面。
这里是父页面:http://my.gwu.edu/mod/pws/subjects.cfm?campId=1&termId=201401
我需要使用网络爬虫吗?在一个 .html 文件中编译所有子页面的最佳方法是什么?我如何编写代码以有效地从列出的所有子页面中抓取所有 html 表数据?干杯!
【问题讨论】:
标签: php html parsing web-scraping html-table