使用 urllib、beautifulsoup 进行网页抓取 [关闭]答案

【问题标题】：Web scraping using urllib, beautifulsoup [closed]使用 urllib、beautifulsoup 进行网页抓取 [关闭]
【发布时间】：2022-06-13 10:41:01
【问题描述】：

我正在使用 colab 来抓取 amazon.jobs 网站的所有 h3（本质上是职位）。

from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd

all_data=[]
for i in range(0, 3):
    url = "https://www.amazon.jobs/en/search?offset={}&result_limit=10&sort=relevant&country%5B%5D=USA&state%5B%5D=New%20York&distanceType=Mi&radius=24km&location%5B%5D=virtual-locations&latitude=&longitude=&loc_group_id=&loc_query=Remote&base_query=business%20intelligence&city=&country=&region=&county=&query_options=&".format(i*10)
    print(url)
    page = urlopen(url)
    soup = BeautifulSoup(page, "lxml")
    print(soup.find("h3"))
    all_data.append(soup.find_all("h3"))
df = pd.DataFrame(all_data)
df.to_csv('data.csv')

另外，当我使用all_data.append(soup.find_all("a")) 时，它只在主标题上显示有限的结果。

它没有显示所有结果。它只显示以“h3”开头的上标题（？）信息。这段代码没有显示所有结果的原因是什么？

【问题讨论】：

您的实际问题是什么？你做了什么来调试你的问题？

标签： python web-scraping beautifulsoup google-colaboratory urllib