【发布时间】:2020-11-10 12:05:36
【问题描述】:
您好,我是 python 新手。使用一些演示网站练习网页抓取。 我正在尝试抓取这个网站http://books.toscrape.com/ 并想提取
- href
- 姓名/职务
- 开始评分/星级
- 价格/价格颜色
- 库存可用性/库存可用性
我编写了一个基本代码,用于每个书籍级别。
但在那之后,我对如何提取这些信息一无所知。
import requests
from csv import reader,writer
from bs4 import BeautifulSoup
base_url= "http://books.toscrape.com/"
r = requests.get(base_url)
htmlContent = r.content
soup = BeautifulSoup(htmlContent,'html.parser')
for article in soup.find_all('article'):
【问题讨论】:
-
您必须查看网站的页面来源(
right click->view page source或类似名称)并找到您想要的信息所在的标签。然后你可以使用soup.find_all()和相关标签来提取信息。
标签: python web-scraping