【发布时间】:2019-03-25 23:38:27
【问题描述】:
我正在尝试抓取结构混乱的网站,我需要的文本位于前 5 个连续 br 标记(不多也不少,正好 5 个)和以下 2 个连续 br 标记之间。
它看起来像这样:
<p class="A">
"Some text"
<br>
"Some text"
<br>
<br>
"Some text"
<br>
<br>
<br>
<br>
<br>
"Required text"
<br>
"Required text"
<br>
"Required text"
<br>
<br>
</p>
【问题讨论】:
-
您没有指定所需的输出 XML,所以这个问题现在无法回答。
-
所需的输出是“必填文本”文本节点中的文本
-
可能只是将其拆分为
并将其视为数组
标签: xpath web-scraping scrapy lxml text-parsing