【发布时间】:2014-02-16 13:40:00
【问题描述】:
我正在用 C++ 创建一个简单的网络爬虫。目前我已经设法从种子 URL 中获取 HTML 代码,保存在字符串或文本文件中。
如何找到并保存 HTML 中的 URL 以继续我的网络爬取?
【问题讨论】:
-
通过解析您阅读的文件中的 HTML。注意:这不是微不足道的。
标签: c++ html parsing network-programming web-crawler
我正在用 C++ 创建一个简单的网络爬虫。目前我已经设法从种子 URL 中获取 HTML 代码,保存在字符串或文本文件中。
如何找到并保存 HTML 中的 URL 以继续我的网络爬取?
【问题讨论】:
标签: c++ html parsing network-programming web-crawler
要稳健地执行此操作,您需要一个合适的 HTML 解析器。 Gumbo 是一个由 Google 编写的开源 HTML5 解析器,您可以使用它来实现类似的东西。
【讨论】: