【发布时间】:2021-12-11 09:42:30
【问题描述】:
我正在抓取一个 Prestashop 网站,我想在其中获取产品所有图像的列表 URL。但是,我得到了重复的值(所有链接都会重复)。我曾尝试创建字典来删除重复项,但它似乎不起作用。 此外,我似乎无法从参考编号中删除跨度标签(展开不起作用) - 它不断返回“无”属性,这令人困惑,因为所有产品都有参考编号。我试过把结果变成一个字符串,但它不让我。
代码如下:
testlink = 'https://trgovina.audiopro.si/si/bas-glave/36037-81020104.html'
r = requests.get(testlink)
soup = BeautifulSoup(r.content, 'html.parser')
imagelinks = []
name = soup.find('h1', class_='product_name').text.strip()
reference = soup.find('div', class_='product-reference_top product-reference')
reference_number = reference.find('span')
images = soup.find_all('li', class_='thumb-container')
for item in images:
image = item.find('img').attrs['src']
imagelinks.append(image)
print(imagelinks)
【问题讨论】:
-
你可以添加导入包的部分吗?会更容易调试。
-
为什么不使用
.text来删除标签。 -
您始终可以使用
set()而不是列表[]来删除重复项。
标签: python image web-scraping beautifulsoup