【发布时间】:2023-12-24 16:33:01
【问题描述】:
我想获取这些学校的所有电子邮件地址(绿色链接): http://www.schulliste.eu/schule/
现在我有获取所有 href 链接的代码,但是如何点击每个链接并从每个点击的链接中删除电子邮件地址?
from bs4 import BeautifulSoup
from urllib.request import urlopen
import re
import requests
def getLinks(url):
html_page = urlopen(url)
soup = BeautifulSoup(html_page)
links = []
for link in soup.findAll('a', attrs={'href': re.compile("^http://")}):
links.append(link.get('href',))
return links
print(getLinks("http://www.schulliste.eu/schule/"))
【问题讨论】:
标签: python email href screen-scraping