【发布时间】:2014-11-24 04:56:40
【问题描述】:
我正在使用 python scrapy 从网站上抓取一些数据。
网站内容是这样的
<html>
<div class="details">
<div class="a"> not needed</div>
content 1
<p>content 2</p>
<div>content 2</div>
<p>content 2</p>
<div>content 2</div>
<p>content 2</p>
<div class="b"> this is also not needed</div>
</div>
</html>
我需要获取完整的 html 数据,不包括 a、b 类的 div。
所以我的输出会是这样的
<div class="details">
content 1
<p>content 2</p>
<div>content 2</div>
<p>content 2</p>
<div>content 2</div>
<p>content 2</p>
</div>
我怎样才能为此编写正确的 xpath,或者我应该为具有类 'details'、'a'、'b' 的 div 编写 xpath 并使用字符串操作来删除具有类 'a'、'b' 的 div?
请注意,这里的内容是 div 的文本,并且不是具有“详细信息”类的 div 的子项
【问题讨论】:
标签: html xpath web-scraping scrapy