【发布时间】:2022-06-13 10:41:01
【问题描述】:
我正在使用 colab 来抓取 amazon.jobs 网站的所有 h3(本质上是职位)。
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd
all_data=[]
for i in range(0, 3):
url = "https://www.amazon.jobs/en/search?offset={}&result_limit=10&sort=relevant&country%5B%5D=USA&state%5B%5D=New%20York&distanceType=Mi&radius=24km&location%5B%5D=virtual-locations&latitude=&longitude=&loc_group_id=&loc_query=Remote&base_query=business%20intelligence&city=&country=®ion=&county=&query_options=&".format(i*10)
print(url)
page = urlopen(url)
soup = BeautifulSoup(page, "lxml")
print(soup.find("h3"))
all_data.append(soup.find_all("h3"))
df = pd.DataFrame(all_data)
df.to_csv('data.csv')
另外,当我使用all_data.append(soup.find_all("a")) 时,它只在主标题上显示有限的结果。
它没有显示所有结果。它只显示以“h3”开头的上标题(?)信息。这段代码没有显示所有结果的原因是什么?
【问题讨论】:
-
您的实际问题是什么?你做了什么来调试你的问题?
标签: python web-scraping beautifulsoup google-colaboratory urllib