【问题标题】:Scrapy spider scrape the last URL from the list of URLs in a text fileScrapy 蜘蛛从文本文件中的 URL 列表中抓取最后一个 URL
【发布时间】:2020-07-16 15:37:34
【问题描述】:

我正在遍历文本文件中的 URL 列表,但 scrapy 蜘蛛从最后一个 URL 开始,并在抓取后存在。它不会遍历其他 URL。这可能是什么原因?

您可以在此处找到代码和文本文件:

https://github.com/CodeWithAwais/yell_spider.git

【问题讨论】:

  • 始终将代码、数据和错误消息作为有问题的文本而不是图像,而不是链接到外部页面。
  • 顺便说一句:更短的links_list = open(..).read().split("\n")start_urls = links_list
  • 当您从文件中读取行时,您必须从行尾删除\n。如果你不这样做,那么你有字符串"url\n",它不是正确的 URL。如果文件中的最后一行没有\n,那么它会为您提供唯一正确的 URL。
  • 我测试了你的代码,它对我来说没有问题。您必须添加更多有问题的详细信息。您必须添加有问题的完整错误消息(不在评论中)
  • @furas 是的,它确实有效,但不幸的是,它只从文本文件中抓取一个链接,然后蜘蛛关闭。

标签: python web-scraping scrapy


【解决方案1】:

感谢@furas,以下代码运行良好:

links_list = open(..).read().split("\n") and start_urls = links_list

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-08-21
    • 1970-01-01
    • 2014-07-15
    相关资源
    最近更新 更多