我们如何在costom python脚本中从scrapy抓取网站后获取url列表？答案

【问题标题】：How we can get List of urls after crawling website from scrapy in costom python script?我们如何在costom python脚本中从scrapy抓取网站后获取url列表？
【发布时间】：2026-01-26 18:35:01
【问题描述】：

我正在使用需要抓取网站的脚本，只需要抓取 base_url 网站。谁知道如何在自定义 python 脚本中启动 Scarpy 并在列表中获取 url 链接？

【问题讨论】：

仅供参考，这里是 a detailed answer 关于从脚本运行 Scrapy。

标签： python python-2.7 web-crawler scrapy

【解决方案1】：

您可以通过将 scrapy.commands 部分添加到 setup.py 中的 entry_points 来从外部库添加 Scrapy 命令。

from setuptools import setup, find_packages

setup(name='scrapy-mymodule',
  entry_points={
    'scrapy.commands': [
      'my_command=my_scrapy_module.commands:MyCommand',
    ],
  },
 )

http://doc.scrapy.org/en/latest/experimental/index.html?highlight=library#add-commands-using-external-libraries

另见Scrapy Very Basic Example。

【讨论】：

【解决方案2】：

您可以使用文件将 url 从 scrapy 传递到您的 python 脚本。

或者你可以在你的scrapy中打印带有标记的url，并使用你的python脚本来捕获你scrapy的标准输出。然后将其解析为列表。

【讨论】：