【发布时间】:2021-09-02 13:38:49
【问题描述】:
对于一个小型应用程序,我想查看我们的本地网站,公共游泳池是否已满员。为此,我尝试使用 urllib 和正则表达式来读取 html 代码并搜索状态。
import urllib
import urllib.request
import re
import time
link = "https://www.brilon.de/kultur-freizeit-tourismus/hallen-und-freibaeder/waldfreibad-gudenhagen/"
page = urllib.request.urlopen(link)
time.sleep(3)
pageFile = page.read()
plainText= pageFile.decode('UTF-8')
line = re.findall("""<div id="lblAlStatus" style="background-color: green;">Zutritt möglich</div>""", plainText)
print (line)
问题是,在很短的时间内,网站只显示“加载状态”而不是“可能进入”或“进入被拒绝”,然后显示实际状态。我试图通过在 urllib.request.urlopen(link) 和实际的 read() 之间添加延迟来解决这个问题,但这并没有按预期工作。
【问题讨论】:
标签: python web web-scraping screen-scraping urllib