【问题标题】:Parse URLs from HTML code C++ [closed]从 HTML 代码 C++ 解析 URL [关闭]
【发布时间】:2014-02-16 13:40:00
【问题描述】:

我正在用 C++ 创建一个简单的网络爬虫。目前我已经设法从种子 URL 中获取 HTML 代码,保存在字符串或文本文件中。

如何找到并保存 HTML 中的 URL 以继续我的网络爬取?

【问题讨论】:

  • 通过解析您阅读的文件中的 HTML。注意:这不是微不足道的。

标签: c++ html parsing network-programming web-crawler


【解决方案1】:

要稳健地执行此操作,您需要一个合适的 HTML 解析器。 Gumbo 是一个由 Google 编写的开源 HTML5 解析器,您可以使用它来实现类似的东西。

【讨论】:

    猜你喜欢
    • 2010-10-09
    • 1970-01-01
    • 2010-12-31
    • 2013-12-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-06-20
    相关资源
    最近更新 更多