【发布时间】:2020-08-24 12:58:59
【问题描述】:
我正在尝试构建一个网络爬虫,它可以访问学区网站并检索学校的名称和网站。我正在使用https://www.dallasisd.org/ 来测试下面的代码。
我目前不知道如何 1) 仅访问“学校”的下拉列表和 2) 在同一下拉列表中检索 <li> 标记中的链接。
任何帮助将不胜感激!谢谢。
from bs4 import BeautifulSoup
from selenium import webdriver
import urllib.request
import requests
import re
import xlwt
import pandas as pd
import xlrd
from xlutils.copy import copy
import os.path
hdr = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)' }
browser = webdriver.Chrome()
url = 'https://www.dallasisd.org/'
browser.get(url)
html_source = browser.page_source
browser.quit()
soup = BeautifulSoup(html_source, "lxml")
for name_list in soup.find_all(class_ ='sw-dropdown-list'):
print(name_list.text)
【问题讨论】:
标签: web-scraping drop-down-menu automation data-collection