【发布时间】:2021-03-12 10:00:41
【问题描述】:
我想从一个网站中提取日期。我想要发布新闻文章的日期/时间。 这是我的代码:
从 bs4 导入 BeautifulSoup 导入请求
url = "http://buchholterberg.ch/de/Gemeinde/Information/News/Newsmeldung?filterCategory=22&newsid=911"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
date_tag = 'div#middle p' # this gives me all the paragraphs
date = soup.select(date_tag)
print(date)
你也可以试试这个网站:
url = 'http://www.embrach.ch/de/aktuell/aktuellesinformationen/?action=showinfo&info_id=1098080'
请查看url,这是我要抓取的网站,我要获取的日期/时间是:13:05:28 26.11.2020
这是我的 css 选择器,它只给我段落,但日期/时间不在段落中,它在字体标签中。
date_tag = 'div#middle p'
但是当我将我的 css 选择器设置为:
date_tag = 'div#middle font'
我得到 []
是否可以提取不在任何子标签中的数据?
【问题讨论】:
标签: python web-scraping beautifulsoup