【发布时间】:2018-07-29 15:51:56
【问题描述】:
我正在尝试使用 BeautifulSoup 抓取网站的 20 页。每个页面大约有 30 个项目,每个项目都有 8 个特性,我想检索这些特性并将它们作为元组附加到名为 res 的列表中。
现在下面的代码应该从 20 页中检索所有项目及其特征并将它们存储到res,但出于某种原因,它似乎只检索第一页的项目和特征。
感谢任何帮助。
for i in range(30):
r = requests.get('https://www.olx.ba/pretraga?trazilica=+golf+2&kategorija=18&stranica='+ str(i))
soup = BeautifulSoup(r.text, 'lxml')
all_items = soup.select('div#rezultatipretrage div.listitem.artikal.obicniArtikal.imaHover-disabled.i.index')
for item in all_items:
naziv = item.find('p', class_='na').text
link = item.a['href']
lokacija = item.find('div', class_='lokacijadiv').text.strip()
godiste = item.find('span', class_='desnopolje').text
gorivo = item.find_all('p', class_='polje')[1].find('span', class_='desnopolje').text
if item.find('div', class_='cijena').span.text == 'PO DOGOVORU':
cijena = 'PO DOGOVORU'
else:
cijena = item.find('div', class_='cijena').span.text[:-2].strip()
cijena = int(cijena.replace('.',''))
stanje = item.find('div', class_='stanje k').text.strip()
datum = item.find('div', class_='kada').text
res.append((naziv, link, lokacija, godiste, gorivo, cijena, stanje, datum))
【问题讨论】:
标签: python html dataframe web-scraping beautifulsoup