【发布时间】:2021-12-16 06:00:17
【问题描述】:
我正在尝试使用 Python 和 BeautifulSoup 从下面的页面获取产品图片。图像在 javascript 中。我正在使用 lxml。我创建了一个简化版本的代码,只关注图像。
import json
from bs4 import BeautifulSoup
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (iPad; CPU OS 12_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E148'
}
testlink = 'https://lapa.co.za/kinder-en-tienerboeke/leer-my-lees-vlak-1-grootboek-9-tippie-en-die-vis'
r = requests.get(testlink, headers=headers)
soup = BeautifulSoup(r.content, 'lxml')
title = soup.find('h1', class_='page-title').text.strip()
images = soup.find('div', class_='product-img-column')
# html_data = requests.get(testlink).text
# data = json.loads(re.search(r'window.INITIAL_REDUX_STATE=(\{.*?\});', html_data))
print(images)
【问题讨论】:
-
你不能,你需要一些东西来呈现 javascript 的外观到 webdrivers,我通常选择 selenium
标签: python web-scraping beautifulsoup lxml screen-scraping