使用 Scrapy 抓取购物商店数据

【问题标题】：Using Scrapy to crawl shopping store data使用 Scrapy 抓取购物商店数据
【发布时间】：2017-10-05 05:25:38
【问题描述】：

我正在尝试使用 scrapy 抓取购物网站的价格。考虑下面这段代码，从网站的scrapy shell执行：

response.xpath('//*[@id="content"]/div[2]/div/div/div[5]/div[1]').extract()

结果是这样的：

[u'<div class="subcategory-title"><span class="placeholder"></span></div>']

但在页面源代码（使用 chrome 开发者工具查看）上，我可以看到该行：

<div class="subcategory-title">Organic Vegetables</div>

首先，“有机蔬菜”是如何被跨度隐藏的？其次，如何获取文本而不是空的 span 元素？

谢谢。

【问题讨论】：

可能您忘记在 XPath 中添加 /text()
如何使用 BeautifulSoup 和 Request 实现相同的目标？那是不是使用 Scrapy 或 Splash？
试着把你的xpath改成//*[@id="content"]/div[2]/div/div/div[5]/div[1]/text()

标签： python html web-scraping scrapy

【解决方案1】：

您可能会看到一个跨度，因为文本节点是使用 JavaScript 动态生成的。

Splash 等与 Scrapy 配合良好的库可以帮助您抓取所需的页面。

有关此链接的更多信息，请访问此链接： scrapy-splash usage for rendering javascript

【讨论】：

猜你喜欢

商店 codeigniter 购物车 2011-12-04
使用scrapy抓取电子商务 2020-07-02
抓取 Android 商店 2019-04-12
使用 Python Scrapy Pandas 从在线商店抓取表格（CSS 构建） 1970-01-01
使用 Python 抓取 Google 购物 1970-01-01
PHP在线购物商店[关闭] 1970-01-01
Magento - 多家商店，获取将产品添加到购物车的商店 1970-01-01
从各种在线商店抓取数据 1970-01-01
使用 Scrapy 抓取 Python 数据 2013-05-23

相关资源

最近更新更多

为什么 sizeof(char + char) 返回 4？ 2025-11-21
是否可以使用 while(my($key, $value) ... ) {} 方法按排序顺序遍历哈希？ 2025-11-21
尝试加载 SqlServerSpatial140.dll 时出现错误 2025-11-21
FlatBuffers：使用联合发送多种数据包类型 2025-11-21
由于具体类和接口没有匹配 IEnumerable<T> 和 List<T> 的返回类型而导致的错误 2025-11-21

热门标签

Java Python linux javascript C# Mysql Docker 算法前端 SpringBoot Redis Vue spring .net 设计模式 .net core c++ kubernetes 数据库机器学习大数据数据结构微服务 js 人工智能 Go Android 面试程序员 JVM 云原生后端 ASP.net core 深度学习 CSS k8s git golang PHP devops Nginx Django React mybatis 架构多线程 Spring Boot 云计算 LeetCode 分布式