【发布时间】:2012-03-23 12:09:43
【问题描述】:
如何获取第一个具有 200 个或更多字符的内部文本(纯文本,丢弃其他子项)的元素?
我正在尝试创建一个像 Embed.ly 这样的 HTML 解析器,并且我已经设置了一个备用系统,我首先检查 og:description,然后我会搜索这个事件,然后才搜索 description元标记。
这是因为大多数甚至包含meta description 的网站都在该标记中描述了他们的网站,而不是当前页面的内容。
例子:
<html>
<body>
<div>some characters
<p>200 characters <span>some more stuff</span></p>
</div>
</body>
</html>
我可以使用什么选择器来获取该 HTML 片段的 200 个字符 部分?我也不想要更多的东西,我不在乎它是什么元素(<script> 或 <style> 除外),只要它是第一个包含在的纯文本至少 200 个字符。
XPath 查询应该是什么样的?
【问题讨论】:
标签: c# html xpath html-agility-pack