【发布时间】:2017-10-20 16:10:42
【问题描述】:
所以我设法编写了一个爬虫,从这个site 中提取“视频”和“英语成绩单”的下载链接。查看 cmd 窗口,我可以看到所有正确的信息都已被抓取。
我遇到的问题是输出的 csv 文件只包含“视频”链接而不是“英语成绩单”链接(即使您可以在 cmd 窗口中看到它已被抓取)。
我尝试了其他帖子中的一些建议,但似乎都没有奏效。
下图是我希望输出的样子: CSV Output Picture
这是我当前的蜘蛛代码:
import scrapy
class SuhbaSpider(scrapy.Spider):
name = "suhba2"
start_urls = ["http://saltanat.org/videos.php?topic=SheikhBahauddin&gopage={numb}".format(numb=numb)
for numb in range(1,3)]
def parse(self, response):
yield{
"video" : response.xpath("//span[@class='download make-cursor']/a/@href").extract(),
}
fullvideoid = response.xpath("//span[@class='media-info make-cursor']/@onclick").extract()
for videoid in fullvideoid:
url = ("http://saltanat.org/ajax_transcription.php?vid=" + videoid[21:-2])
yield scrapy.Request(url, callback=self.parse_transcript)
def parse_transcript(self, response):
yield{
"transcript" : response.xpath("//a[contains(@href,'english')]/@href").extract(),
}
【问题讨论】:
标签: python-2.7 scrapy export-to-csv scrapy-spider