【发布时间】:2013-08-21 13:13:38
【问题描述】:
我想通过 HTML Agility Pack 解析 HTML 文件得到一级元素,例如结果如下:
<html>
<body>
<div class="header">....</div>
<div class="main">.....</div>
<div class="right">...</div>
<div class="left">....</div>
<div class="footer">...</div>
</body>
</html>
每个都包含其他标签... 我想提取网站中存在的所有文本,但要单独提取。例如右侧分开,左侧分开,页脚等等......
谁能帮帮我?
谢谢...
【问题讨论】:
-
但是你有什么尝试..!
-
您有一些特定的 html 需要解析,或者您希望任何 html 页面都具有这种结构?另外你说的提取文本是什么意思,你能给个例子吗?
-
@lazyberezovsky :是的,任何 html 页面。它是 maens:没有标签的文本
-
正如提问者在对我的回答的评论中提到的那样,这实际上并不是一个适用于某个特定网站的问题,而是适用于您为 url 指定的任何网站,因此,这是不可能的只有一种解决方案。
标签: c# html-parsing html-agility-pack