用 C++ 提取 HTML 标签答案

【问题标题】：Extracting HTML tags with C++用 C++ 提取 HTML 标签
【发布时间】：2014-04-23 18:15:23
【问题描述】：

我目前正在为搜索引擎开发一个用 C++ 编写的爬虫，该爬虫将获取 HTML 文件列表并需要提取 HTML 标记并将它们放入文件中。

我听说过使用 XML 解析器，但我不知道如何将 HTML 文件转换为 XHTML，除此之外，转换为 XHTML 在性能方面非常昂贵。而 C++ 中的 html 解析器几乎不存在。

第三种方法是使用 boost regex 从 HTML 文件中提取这些标签，但我需要提取所有标签（p，h1，h2，a ...），所以它会有点太长了.

关于如何在 C++ 中获取 HTML 标签的任何其他解决方案？

【问题讨论】：

这似乎是 Jsoup like html parser for C++ 的欺骗，顺便说一句，这是“c++ html 解析”的第一个谷歌结果。答案是：你想要QWebElement。
我在linux中编码，我可以在其中使用QT吗？
Qt 是免费的多平台软件，所以，是的（我自己主要使用 Linux）...

【解决方案1】：

尝试使用xml解析器解析，我一般用RapidXML查看here

您将获得 HTML 文件的所有标签和属性。

【讨论】：

【解决方案2】：

你可以使用libxml中的HTML parser。

【讨论】：