【问题标题】:How we can get List of urls after crawling website from scrapy in costom python script?我们如何在costom python脚本中从scrapy抓取网站后获取url列表?
【发布时间】:2026-01-26 18:35:01
【问题描述】:

我正在使用需要抓取网站的脚本,只需要抓取 base_url 网站。谁知道如何在自定义 python 脚本中启动 Scarpy 并在列表中获取 url 链接?

【问题讨论】:

标签: python python-2.7 web-crawler scrapy


【解决方案1】:

您可以通过将 scrapy.commands 部分添加到 setup.py 中的 entry_points 来从外部库添加 Scrapy 命令。

from setuptools import setup, find_packages

setup(name='scrapy-mymodule',
  entry_points={
    'scrapy.commands': [
      'my_command=my_scrapy_module.commands:MyCommand',
    ],
  },
 )

http://doc.scrapy.org/en/latest/experimental/index.html?highlight=library#add-commands-using-external-libraries

另见Scrapy Very Basic Example

【讨论】:

    【解决方案2】:

    您可以使用文件将 url 从 scrapy 传递到您的 python 脚本。

    或者你可以在你的scrapy中打印带有标记的url,并使用你的python脚本来捕获你scrapy的标准输出。然后将其解析为列表。

    【讨论】: