【发布时间】:2014-04-23 18:15:23
【问题描述】:
我目前正在为搜索引擎开发一个用 C++ 编写的爬虫,该爬虫将获取 HTML 文件列表并需要提取 HTML 标记并将它们放入文件中。
我听说过使用 XML 解析器,但我不知道如何将 HTML 文件转换为 XHTML,除此之外,转换为 XHTML 在性能方面非常昂贵。而 C++ 中的 html 解析器几乎不存在。
第三种方法是使用 boost regex 从 HTML 文件中提取这些标签,但我需要提取所有标签(p,h1,h2,a ...),所以它会有点太长了.
关于如何在 C++ 中获取 HTML 标签的任何其他解决方案?
【问题讨论】:
-
这似乎是 Jsoup like html parser for C++ 的欺骗,顺便说一句,这是“c++ html 解析”的第一个谷歌结果。答案是:你想要
QWebElement。 -
我在linux中编码,我可以在其中使用QT吗?
-
Qt 是免费的多平台软件,所以,是的(我自己主要使用 Linux)...
标签: c++ html xml regex parsing