【发布时间】:2016-01-25 11:41:31
【问题描述】:
所以我目前正在使用 Scrapy 并想抓取一个网站以获取特定信息。我希望只能在存在某些文本的情况下抓取信息,但也只能在不存在某些文本的情况下抓取信息。
例如,我可能会查找 apple、banana 或 pear,如果我发现其中一个单词出现,我想抓取页面,但如果 peach 也在文本中,我不想抓取内容。我希望这是有道理的?
据我了解,我可以使用 xpath 来创建这样的 or 语句:
//tbody[contains(text(), "apple")] | //tbody[contains(text(), "banana")] | //tbody[contains(text(), "pear")]
但是如果 Xpath 在其中发现桃子,我如何告诉 Xpath 不要抓取页面?
我还从页面中提取了一些其他元素,但我认为它们不相关(如果我错了请告诉我)
谢谢
【问题讨论】:
标签: python xml xpath scrapy scrapy-spider