【发布时间】:2012-01-26 03:23:10
【问题描述】:
如何从这个 HTML 代码中提取:
<body>
<div class="div1">
<div class="div2">
<div class="div3">
<div class="div3.1">
<h2 class="notopgap">HEADER</h2>
<br>DONT WANT THIS TEXT
<br><a href='mailto:info@mylink.pt'>info@mylink.pt</a>
<br><h2>I WANT THIS TEXT</h2>
<br>TEXT: WANT THIS
<br>DONT WANT THIS
<a name='#lev3'></a>
<h2>FINALLY I WANT THIS TOO</h2><br>
<div class="div3.1.1">
BUNCH OF TEXT ...
以下文字:
WANT THIS TEXT
WANT THIS
FINALLY I WANT THIS TOO
与 Nokogiri/Ruby 合作?
我可以在 div 和其他元素之间进行提取,但是当我想要的文本的每个部分之间没有 div,而只有 br 时,我该怎么做呢?
【问题讨论】:
-
您想要什么和不想要什么的区别是什么?特别是什么决定了你想要“TEXT: WANT THIS”而不是“DONT WANT THIS”?
-
区别在于
TEXT: ... 直到下一个
! -
所以你想要后面跟着
<br>的文本,而不是后面跟着<br>的文本not? -
你的逻辑一点都不清楚。很高兴您提供了示例输入和所需的输出,但是您没有清楚地传达是什么让某些区域特别而其他区域没有。