【发布时间】:2019-06-11 06:18:02
【问题描述】:
我正在尝试抓取此网址上的项目:
"https://www.bloomberg.com/news/articles/2019-05-30/tesla-dealt-another-blow-as-barclays-sees-it-as-niche-carmaker"
我只想获取标题和发布日期, 你可以给我的任何示例代码,甚至溅起等等
到目前为止我尝试的是这个
def parse(self, response):
yield scrapy.Request('https://www.bloomberg.com/news/articles/2019-05-30/tesla-dealt-another-blow-as-barclays-sees-it-as-niche-carmaker -H x-crawlera-use-https:1',
headers={'X-Crawlera-Session': create,
'X-Crawlera-Timeout': 40000,
'X-Crawlera-Max-Retries': 5,
'X-Crawlera-Cookies': disable,
'X-Crawlera-Session': self.session_id
},
callback=self.parse_sub,
)
def parse_sub(self, response):
response.xpath("//h1[@class = 'lede-text-v2__hed']").extract_first()
response.xpath("//meta[@property = 'og:title']/@content").extract_first()
response.xpath("//time[@class = 'article-timestamp']/@datetime").extract_first()
print(response.text)
我也在使用 crawlera,但它一直将我检测为机器人
【问题讨论】:
-
您是否考虑接受仅使用 Selenium 的答案?
-
是的,我将@DebanjanB
-
所以您想提取 当巴克莱银行称其为“利基汽车制造商”时,特斯拉再次受到打击 和 2019 年 5 月 30 日下午 5:26 GMT+5: 30 更新于 2019 年 5 月 30 日晚上 7:21 GMT+5:30 两者都... rit?
-
是的,你是对的@DebanjanB
-
@DebanjanB 我只需要 2019 年 5 月 30 日下午 5:26 GMT+5:30“未更新”谢谢
标签: python selenium scrapy bloomberg scrapy-splash