Scrapy shell - 用于从表中获取信息的正确 xpath 选择器？

【问题标题】：Scrapy shell- correct xpath selector for getting info from a table?Scrapy shell - 用于从表中获取信息的正确 xpath 选择器？
【发布时间】：2020-10-18 03:31:26
【问题描述】：

我正在尝试获取正确的 Xpath 以提取下图中红色圈出的信息：

enter image description here

我尝试复制 xpath 并将其粘贴到 scrapy shell，但它不起作用。我遇到了困难，因为信息包含在表格中，并且表格的每个元素都具有相同的名称。该网站是

https://virtualmuebles.com/muebles-sala/mesa-tv-invy-1c-casa-linda-wg

【问题讨论】：

标签： python web-scraping scrapy scrapy-shell

【解决方案1】：

假设文本Marca 在您要抓取的所有页面上都是不变的。首先搜索包含文本“Marca”的b 元素。如果它是 td 元素，则查找其父元素。如果它是td 元素，则获取以下兄弟。获取其文本节点：

response.xpath("//b[contains(text(),'Marca')]/parent::td/following-sibling::td/text()").get()

否则，如果它始终是第四个tr 元素的第二个td 元素：

response.xpath("//tr[4]/td[2]/text()").get()

输出：

'RTA Design'

【讨论】：