【发布时间】:2015-07-09 05:56:48
【问题描述】:
我正在使用 scrapy 进行一些网页抓取,但遇到了问题。我发现我可以使用以下命令行将我的 scrapy 结果保存到 csv 文件中:
scrapy crawl spider --set FEED_URI=output.csv --set FEED_FORMAT=csv
我还知道我可以使用以下命令行输入读取起始 url 以从文本文件中抓取:
scrapy crawl dmoz -a filename=text.txt
我在蜘蛛中的代码是:
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["ebay.com"]
def __init__(self, filename=None):
if filename:
with open(filename, 'r') as f:
self.start_urls = f.readlines()
print self.start_urls
当我尝试同时执行这两项操作时,我的问题就出现了。我希望我的蜘蛛抓取文本文件中指定的 url,然后将输出写入 csv 文件。以下命令行由于某种原因不起作用,读取了url(我知道一个事实),但是没有写入csv文件:
scrapy crawl dmoz -a filename=text.txt --set FEED_URI=output.csv --set FEED_FORMAT=csv
如果有人看到我做错了什么或有解决方法,将不胜感激。谢谢!
【问题讨论】:
标签: python csv web-scraping scrapy