使用scrapy从阿里巴巴抓取标题

【问题标题】：Scraping title from alibaba using scrapy使用scrapy从阿里巴巴抓取标题
【发布时间】：2018-08-18 23:48:16
【问题描述】：

我想从这个链接中删除此页面的标题，即义乌市珠宝商有限公司：https://www.alibaba.com/energy-jewelrys-suppliers.html

html代码sn-p是：

 <a target="_blank" title href="//cnmj.en.alibaba.com/company_profile.html#top-nav-bar" data-hislog="230670293" data-domdot="id:2638,sid:230670293">Yiwu City MJ <strong>Jewelry</strong> Co., Ltd.</a>

我有这个代码：

response.xpath('//*[@class="title ellipsis"]/a/text()').extract()

但输出是：

['Yiwu City Mj ',
 ' Jewelery',
'Co. Ltd.']

问题是它应该是列表中的单个项目而不是多个项目。我怎么做？谢谢

【问题讨论】：

标签： python xpath web-scraping scrapy

【解决方案1】：

由于a 中的子strong 标记，您会得到这个。

要解决此问题，您可以尝试。

"".join(response.xpath('//*[@class="title ellipsis"]/a//text()').extract())

希望这有助于解决问题。

【讨论】：

猜你喜欢

搭建阿里巴巴java示例 1970-01-01
从阿里巴巴抓取类别及其网址并将其放在两列中 1970-01-01
使用阿里巴巴python SDK分配EIP不起作用 1970-01-01
芝麻和阿里巴巴是什么关系？ 2012-05-05
从阿里巴巴 OSS 中读取一个对象并使用 pandas python 修改它 2023-08-26
阿里巴巴 Rsocket - MonoContextWrite 无法转换为 java.lang.Integer 类 2021-12-18
SSL peer 错误关闭 - 阿里巴巴 OSS java SDK 1970-01-01
为阿里巴巴云生成签名的麻烦 1970-01-01
使用 terraform 的阿里巴巴飞天 MySQL DB 多可用区实例 1970-01-01

相关资源

珠穆朗玛—标题体 Normal字体,珠穆朗玛—标题体字体下载下载 2022-12-28
Scrapy Web爬虫框架 v2.5.0下载 2022-12-30
天天自动抓取更新系统 v1.0下载 2023-05-31

最近更新更多

如何减少通知中心的活动设备注册计数 2025-11-21
中途停止承诺链 2025-11-21
HttpContext.Current.User.Identity.Name 为空 2025-11-21
Safari 特定的 CSS 2025-11-21
如何在 Joomla 中为自定义组件创建面包屑？ 2025-11-21

热门标签

Java Python linux javascript C# Mysql Docker 算法前端 SpringBoot Redis Vue spring .net 设计模式 .net core c++ kubernetes 数据库机器学习大数据数据结构微服务 js 人工智能 Go Android 面试程序员 JVM 云原生后端 ASP.net core 深度学习 CSS k8s git golang PHP devops Nginx Django React mybatis 架构多线程 Spring Boot 云计算 LeetCode 分布式