【发布时间】:2020-10-09 07:15:26
【问题描述】:
我正在尝试抓取此网站https://www.tahko.com/fi/tapahtumat/。 我已经能够抓取主表上的事件,但我现在需要抓取每个表对应的月份。
月份(例如 Lokakuu 2020 或 Marraskuu 2020)在 h2 标签内,样式为“font-size:32px;”并且在类(这是整个 td 区域)“col-lg-8 col-md-8 col-sm-12 col-xs-12”内。
这是 HTML 代码。这被放置在一个 div 中,具有上述的类。
<h2 style="font-size:32px;">LOKAKUU 2020</h2>
这几个月我怎么刮?
到目前为止我尝试过的是:
fetch("https://www.tahko.com/fi/tapahtumat/")
full = response.xpath('//*[@class="col-lg-8 col-md-8 col-sm-12 col-xs-12"]')
months = full.xpath('/*[@style="font-size:32px;"]')
奖金问题: 将这些月份与下面的事件表相匹配的最简单方法是什么?
【问题讨论】:
-
你的代码在哪里?
-
@baduker 我只编写了从表中抓取事件的代码。我已经编辑了到目前为止我尝试过的问题
标签: html python-3.x xpath web-scraping scrapy