【问题标题】:Web scraping different formats网页抓取不同的格式
【发布时间】:2020-08-26 09:32:59
【问题描述】:

我正在尝试在此页面https://www.aacps.org/Page/4014 上抓取员工的姓名、电子邮件 ID(链接到他们的姓名)、年份和角色/主题,并将详细信息保存在 Excel 表中。收集链接数据和明文信息时遇到困难。

这是我目前所拥有的:

url_fac='https://www.aacps.org/Page/4014'
print(url_fac)
req_fac = urllib.request.Request(url_fac, headers=hdr)
html_page_fac = urllib.request.urlopen(req_fac)
soup_fac = BeautifulSoup(html_page_fac, "lxml")
links_fac=soup_fac.find_all('a') 

提前非常感谢!

【问题讨论】:

    标签: python web-scraping automation scrape web-site-project


    【解决方案1】:

    可能不是最有效的方法,但可以让您以可清理的格式获取数据。

    from bs4 import BeautifulSoup
    import requests
    
    headers = {
    'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
    
    url_fac = 'https://www.aacps.org/Page/4014'
    
    req_fac = requests.get(url_fac, headers=headers)
    soup_fac = BeautifulSoup(req_fac.content, 'html.parser')
    staff_fac = soup_fac.find('div', attrs={'id': "sw-module-78060"})
    
    for link in staff_fac.find_all('a', href=True):
       print("Url: " + link['href'])
       print("Name: " + link.parent.text)
       print("Team: " + link.parent.parent.parent.find("strong").text)
    

    输出:

    Url: mailto:shartford@aacps.org
    Name: Principal – Shelley Hartford  shartford@aacps.org
    Team: Principal
    

    等等

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-12-19
      • 1970-01-01
      • 1970-01-01
      • 2012-09-24
      • 2021-07-25
      • 2020-06-18
      • 1970-01-01
      相关资源
      最近更新 更多