【发布时间】:2014-12-10 09:58:13
【问题描述】:
我正在尝试通过 Scrapy 获取 cmets 之间的内容。我已经找到了this,但除了以这种方式提取 cmets 外,我并没有走得更远。不过,我的目标是在每次“开始评论”和“结束评论”发生时获得 2 个 cmets 之间的所有内容。假设网站上的区块结构如下:
<!-- Start -->
<div class.. >
<ul>...
more content
</ul>
</div>
<!-- End -->
<!-- Start -->
same structure, different entries
<!-- End -->
<!-- Start -->
same structure, different entries
<!-- End -->
....
我正在寻找的是类似于 xpath 的东西来查找特定字符串并将它们全部保存在一个列表中,并且会得到一个有点类似于“[contentBlock1,contentBlocks2,...]”的输出,就像这样您通常使用 xpath 获得输出。任何有帮助的东西都会受到高度赞赏:)
编辑:值得注意的是,我目前正在使用一个scrapy响应/选择器对象。能够处理任何一个的解决方案将是首选。
【问题讨论】:
标签: python xpath comments scrapy block