Scrapy 蜘蛛从文本文件中的 URL 列表中抓取最后一个 URL答案

【问题标题】：Scrapy spider scrape the last URL from the list of URLs in a text fileScrapy 蜘蛛从文本文件中的 URL 列表中抓取最后一个 URL
【发布时间】：2020-07-16 15:37:34
【问题描述】：

我正在遍历文本文件中的 URL 列表，但 scrapy 蜘蛛从最后一个 URL 开始，并在抓取后存在。它不会遍历其他 URL。这可能是什么原因？

您可以在此处找到代码和文本文件：

https://github.com/CodeWithAwais/yell_spider.git

【问题讨论】：

始终将代码、数据和错误消息作为有问题的文本而不是图像，而不是链接到外部页面。
顺便说一句：更短的links_list = open(..).read().split("\n")和start_urls = links_list。
当您从文件中读取行时，您必须从行尾删除\n。如果你不这样做，那么你有字符串"url\n"，它不是正确的 URL。如果文件中的最后一行没有\n，那么它会为您提供唯一正确的 URL。
我测试了你的代码，它对我来说没有问题。您必须添加更多有问题的详细信息。您必须添加有问题的完整错误消息（不在评论中）
@furas 是的，它确实有效，但不幸的是，它只从文本文件中抓取一个链接，然后蜘蛛关闭。

标签： python web-scraping scrapy

【解决方案1】：

感谢@furas，以下代码运行良好：

links_list = open(..).read().split("\n") and start_urls = links_list

【讨论】：