【发布时间】:2026-01-26 18:35:01
【问题描述】:
我正在使用需要抓取网站的脚本,只需要抓取 base_url 网站。谁知道如何在自定义 python 脚本中启动 Scarpy 并在列表中获取 url 链接?
【问题讨论】:
-
仅供参考,这里是 a detailed answer 关于从脚本运行 Scrapy。
标签: python python-2.7 web-crawler scrapy
我正在使用需要抓取网站的脚本,只需要抓取 base_url 网站。谁知道如何在自定义 python 脚本中启动 Scarpy 并在列表中获取 url 链接?
【问题讨论】:
标签: python python-2.7 web-crawler scrapy
您可以通过将 scrapy.commands 部分添加到 setup.py 中的 entry_points 来从外部库添加 Scrapy 命令。
from setuptools import setup, find_packages
setup(name='scrapy-mymodule',
entry_points={
'scrapy.commands': [
'my_command=my_scrapy_module.commands:MyCommand',
],
},
)
【讨论】:
您可以使用文件将 url 从 scrapy 传递到您的 python 脚本。
或者你可以在你的scrapy中打印带有标记的url,并使用你的python脚本来捕获你scrapy的标准输出。然后将其解析为列表。
【讨论】: