【发布时间】:2020-02-05 16:37:05
【问题描述】:
我想抓取这个网站:https://www.projets-environnement.gouv.fr/pages/home/
更准确地说,我想收集div 和id = table-wrapper 中的表。
我的问题是我无法用BeautifulSoup 捕捉到它。
这是我的代码:
url = 'https://www.projets-environnement.gouv.fr/pages/home/'
html = requests.get(url).text
soup = BeautifulSoup(html, "html5lib")
div_table = soup.findAll('div', id_='table-wrapper')
但是div_table 是一个None 对象。
硒是解决方案吗?
【问题讨论】:
-
你确定网站上有一个带有
id=table_wrapper的div吗? -
是的,只是一个小错误,我将帖子从
id='table_wraper'编辑为id='table-wrapper' -
当我查看网站时,我找不到任何带有
table-wrapper或table_wrapper的div -
我又查了一遍,在帖子里加了一张图片。
-
到底是什么问题?如果你需要的内容是动态生成的,那就用Selenium,否则你可以坚持Requests和BeautifulSoup。
标签: python python-3.x selenium web-scraping beautifulsoup