【发布时间】:2021-09-14 01:17:02
【问题描述】:
我正在尝试使用网站搜索关键字从 Vogue 中抓取文章标题和链接。我无法获得前 100 个结果,因为“显示更多”按钮会遮盖它们。我之前通过使用更改 URL 解决了这个问题,但 Vogue 的 URL 没有更改以包含页码、结果编号等。
import requests
from bs4 import BeautifulSoup as bs
url = 'https://www.vogue.com/search?q=HARRY+STYLES&sort=score+desc'
r = requests.get(url)
soup = bs(r.content, 'html')
links = soup.find_all('a', {'class':"summary-item-tracking__hed-link summary-item__hed-link"})
titles = soup.find_all('h2', {'class':"summary-item__hed"})
res = []
for i in range(len(titles)):
entry = {'Title': titles[i].text.strip(), 'Link': 'https://www.vogue.com'+links[i]['href'].strip()}
res.append(entry)
关于如何通过“显示更多”按钮抓取数据的任何提示?
【问题讨论】:
标签: python web-scraping beautifulsoup python-requests