【发布时间】:2020-11-08 12:40:59
【问题描述】:
我制作了一个脚本,用于抓取一些商店的页面以寻找缺货商品。它看起来像这样:
import requests
from bs4 import BeautifulSoup
urls = ['https://www.someurla','https://www.someurlb']
for url in urls:
res = requests.get(url)
soup = BeautifulSoup(res.content,'html.parser')
if len(soup.find_all('li',class_='out-of-stock')) > 0:
print(soup.title)
现在,我想以某种方式使这个列表或 URL 可用于更新,而无需干预这个小脚本。因此,我考虑了一些可以用作平面数据库的分离文件。我认为它比一些关系数据库更合适,因为我真的不需要它。
我想从更有经验的 Python 用户那里获得一些意见,这种方法是否合适,如果这是使用文本或 .py 文件执行此操作的最佳方法。哪些库适合这项任务?另一方面,有更好的方法吗?
【问题讨论】:
-
使用
scrapy。它具有您需要的功能
标签: python web-scraping libraries flat-file