使用具有特定 css 类的 scrapy 提取链接答案

【问题标题】：Extracting links with scrapy that have a specific css class使用具有特定 css 类的 scrapy 提取链接
【发布时间】：2015-09-02 19:50:05
【问题描述】：

概念上简单的问题/想法。

使用 Scrapy，我如何使用 LinkExtractor 来提取仅跟随具有给定 CSS 的链接的链接？

看起来微不足道，应该已经内置了，但我没有看到它？是吗？

看起来我可以使用 XPath，但我更喜欢使用 CSS 选择器。好像不支持？

是否必须编写自定义 LinkExtractor 才能使用 CSS 选择器？

【问题讨论】：

【解决方案1】：

据我了解，您需要类似于 restrict_xpaths 的内容，但提供 CSS 选择器而不是 XPath 表达式。

这实际上是Scrapy 1.0中的一个内置功能（目前处于发布候选状态），参数称为restrict_css：

restrict_css

一个 CSS 选择器（或选择器列表），它定义了应从中提取链接的响应。具有相同的行为作为restrict_xpaths。

初始功能请求：

【讨论】：

这是个好消息！谢谢（你的）信息。另外，知道 1.0 是否支持 Python 3？我知道由于扭曲的依赖关系，这可能还不可能，但仍然很好奇。希望在 Python 3 中提供此功能。
@lostdorje 是的，据我所知，Scrapy 开发人员正在开发 Python 3 支持，但 twisted 远未实现，请参阅rawgit.com/mythmon/twisted-py3-graph/master/index.html。另见：github.com/scrapy/scrapy/issues/263.