【发布时间】:2020-07-16 15:37:34
【问题描述】:
我正在遍历文本文件中的 URL 列表,但 scrapy 蜘蛛从最后一个 URL 开始,并在抓取后存在。它不会遍历其他 URL。这可能是什么原因?
您可以在此处找到代码和文本文件:
【问题讨论】:
-
始终将代码、数据和错误消息作为有问题的文本而不是图像,而不是链接到外部页面。
-
顺便说一句:更短的
links_list = open(..).read().split("\n")和start_urls = links_list。 -
当您从文件中读取行时,您必须从行尾删除
\n。如果你不这样做,那么你有字符串"url\n",它不是正确的 URL。如果文件中的最后一行没有\n,那么它会为您提供唯一正确的 URL。 -
我测试了你的代码,它对我来说没有问题。您必须添加更多有问题的详细信息。您必须添加有问题的完整错误消息(不在评论中)
-
@furas 是的,它确实有效,但不幸的是,它只从文本文件中抓取一个链接,然后蜘蛛关闭。
标签: python web-scraping scrapy