【问题标题】:Extracting HTML tags with C++用 C++ 提取 HTML 标签
【发布时间】:2014-04-23 18:15:23
【问题描述】:

我目前正在为搜索引擎开发一个用 C++ 编写的爬虫,该爬虫将获取 HTML 文件列表并需要提取 HTML 标记并将它们放入文件中。

我听说过使用 XML 解析器,但我不知道如何将 HTML 文件转换为 XHTML,除此之外,转换为 XHTML 在性能方面非常昂贵。而 C++ 中的 html 解析器几乎不存在。

第三种方法是使用 boost regex 从 HTML 文件中提取这些标签,但我需要提取所有标签(p,h1,h2,a ...),所以它会有点太长了.

关于如何在 C++ 中获取 HTML 标签的任何其他解决方案?

【问题讨论】:

  • 这似乎是 Jsoup like html parser for C++ 的欺骗,顺便说一句,这是“c++ html 解析”的第一个谷歌结果。答案是:你想要QWebElement
  • 我在linux中编码,我可以在其中使用QT吗?
  • Qt 是免费的多平台软件,所以,是的(我自己主要使用 Linux)...

标签: c++ html xml regex parsing


【解决方案1】:

尝试使用xml解析器解析,我一般用RapidXML查看here

您将获得 HTML 文件的所有标签和属性。

【讨论】:

  • 你能解释一下吗,比如我怎样才能从html中获取xml文件谢谢
  • 看看这个[rapidxml.sourceforge.net/…,它展示了如何获取xml_document<> doc;,其中包括所有标签和属性。
  • 也看看这个问题:stackoverflow.com/questions/2808022/…>
【解决方案2】:

你可以使用libxml中的HTML parser

【讨论】:

    猜你喜欢
    • 2021-12-05
    • 2010-10-17
    • 1970-01-01
    • 2021-08-11
    • 2016-11-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多