从 HTML 代码 C++ 解析 URL [关闭]

【问题标题】：Parse URLs from HTML code C++ [closed]从 HTML 代码 C++ 解析 URL [关闭]
【发布时间】：2014-02-16 13:40:00
【问题描述】：

我正在用 C++ 创建一个简单的网络爬虫。目前我已经设法从种子 URL 中获取 HTML 代码，保存在字符串或文本文件中。

如何找到并保存 HTML 中的 URL 以继续我的网络爬取？

【问题讨论】：

通过解析您阅读的文件中的 HTML。注意：这不是微不足道的。

标签： c++ html parsing network-programming web-crawler

【解决方案1】：

要稳健地执行此操作，您需要一个合适的 HTML 解析器。 Gumbo 是一个由 Google 编写的开源 HTML5 解析器，您可以使用它来实现类似的东西。

【讨论】：

猜你喜欢

2010-10-09
1970-01-01
2010-12-31
2013-12-13
1970-01-01
1970-01-01
1970-01-01
2011-06-20

相关资源

下载 2022-12-23
下载 2021-06-05
下载 2021-06-05
下载 2023-02-02
下载 2023-03-28

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode