【发布时间】:2021-08-22 23:31:00
【问题描述】:
我试图从链接到here 的 url 中抓取一些基本的产品信息,但是 bs4 find_all 命令在给定与产品 div 关联的类的名称的情况下找不到任何数据。具体来说,我正在尝试:
url = https://www.walmart.com/grocery/browse/Cereal-&-Breakfast-Food?aisle=1255027787111_1255027787501
r = requests.get(url)
soup = BeautifulSoup(r.content, 'lxml')
product_list = soup.find_all('div', class_='productListTile')
print(product_list)
但这会打印一个空列表[]。检查 Chrome 上的网页后,我知道“productListTile”是正确的类名。知道我做错了什么吗?
【问题讨论】:
-
您是否尝试打印
r.content?它是正确的html吗? -
好主意 - 它打印出一些 html,但与我在检查网页时在 Chrome 中看到的内容不匹配。您能否使用此代码获得正确的输出?
-
也许该网站不想被抓取,所以它使用了反机器人。也尝试打印
r.text并检查结果。
标签: python web-scraping beautifulsoup python-requests