【发布时间】:2019-02-06 22:27:50
【问题描述】:
我一直在编写一些代码来从 Java 中的某些页面获取一些数据,而 Jsoup 是最好的库之一。但是,不幸的是,我必须将整个代码移植到 C/C++。但是我找不到任何可以在 c++ 上使用的像样的 html 解析器。是否有任何类似 Jsoup 的 C++ 库或如何实现类似的结果?
[目前我正在使用Curl来获取页面的来源并在互联网上漫游以查找html解析器]
【问题讨论】:
-
那里有 really good XML parsers,但我不知道一个好的 C++ HTML 特定解析器
-
JNI 会成为您的解决方案吗?
-
我可能不想使用 JNI。我对此没有太多想法。而且我还想让项目的依赖性降低[除非必要]。
-
另外澄清一下,我需要的只是解析文档并从中获取一些值,以及使用 CSS Selector[preferably] 或 Xpath 返回的可靠方法。此外,如果解析器非常快,那就太好了,因为我将浏览超过 100,000 个页面来维护数据库。
-
谷歌开源 Gumbo:github.com/google/gumbo-parser
标签: c++ html css-selectors jsoup