【问题标题】:Web scraping using urllib, beautifulsoup [closed]使用 urllib、beautifulsoup 进行网页抓取 [关闭]
【发布时间】:2022-06-13 10:41:01
【问题描述】:

我正在使用 colab 来抓取 amazon.jobs 网站的所有 h3(本质上是职位)。

from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd

all_data=[]
for i in range(0, 3):
    url = "https://www.amazon.jobs/en/search?offset={}&result_limit=10&sort=relevant&country%5B%5D=USA&state%5B%5D=New%20York&distanceType=Mi&radius=24km&location%5B%5D=virtual-locations&latitude=&longitude=&loc_group_id=&loc_query=Remote&base_query=business%20intelligence&city=&country=&region=&county=&query_options=&".format(i*10)
    print(url)
    page = urlopen(url)
    soup = BeautifulSoup(page, "lxml")
    print(soup.find("h3"))
    all_data.append(soup.find_all("h3"))
df = pd.DataFrame(all_data)
df.to_csv('data.csv')

另外,当我使用all_data.append(soup.find_all("a")) 时,它只在主标题上显示有限的结果。

它没有显示所有结果。它只显示以“h3”开头的上标题(?)信息。这段代码没有显示所有结果的原因是什么?

【问题讨论】:

  • 您的实际问题是什么?你做了什么来调试你的问题?

标签: python web-scraping beautifulsoup google-colaboratory urllib


猜你喜欢
  • 2018-02-07
  • 2018-02-06
  • 2016-06-19
  • 1970-01-01
  • 2018-09-22
  • 2018-08-02
  • 1970-01-01
  • 2020-10-04
相关资源
最近更新 更多