【发布时间】:2013-07-13 17:59:44
【问题描述】:
我需要编写 Qt/C++ 代码来提取所有 p 标签以将每个 p 标签写入 .txt 文件,例如,如果我有以下 HTML 页面:
<!DOCTYPE html>
<html>
<body>
<h1>My First Heading</h1>
<p>My first paragraph.</p>
<p>My second paragraph.</p>
</body>
</html>
我需要代码来创建 2 个 .txt 文件,第一个文件将包含我的第一段。第二个将包括我的第二段。
我的问题是如何解析html并获取标签之间的txt,这里是我的代码
int main(int argc, char *argv[])
{
QApplication a(argc, argv);
QWebPage page;
QWebFrame * frame =page.mainFrame();
QUrl fileUrl ("https://en.wikipedia.org/wiki/Bank");
frame->setUrl(fileUrl);
QWebElement document = frame->documentElement();
QWebElementCollection collection = document.findAll("p");
foreach (QWebElement paraElement, collection) {
}
MainWindow w;
w.show();
return a.exec();
}
非常感谢您的帮助
【问题讨论】:
-
嵌套的
标签怎么样。例如:
This is first
This is an nested para with para2.
para.在上述情况下你的输出应该是什么。? -
如果你正在抓取维基百科,可能有更简单的方法可以做到这一点。例如:stackoverflow.com/questions/7185288/…