【发布时间】:2011-08-19 14:11:53
【问题描述】:
解析HTML文档时,Nokogiri如何处理<br>标签?假设我们有一个看起来像这样的文档:
<div>
Hi <br>
How are you? <br>
</div>
Nokogiri 是否知道<br> 标签是特殊的,而不仅仅是常规的 XML 标签,并且在解析节点提要时忽略它们?我认为 Nokogiri 很聪明,但在我接受这个涉及以 HTML4 编写的抓取网站的项目之前,我想确定一下。你知道我的意思(How are you? 不是第一个 <br> 的内容,就像它在 XML 中那样)。
【问题讨论】:
-
你能澄清你的期望(或试图避免)吗?例如,您是否要确保“div”元素的文本是“Hi How are you?”而不仅仅是“嗨”和“你好吗?”是第一个“
<br>”元素的文本吗?