【发布时间】:2019-09-18 23:44:35
【问题描述】:
所以我正在尝试抓取此页面:https://icd.who.int/browse10/2016/en
问题是我试图抓取的页面内容在页面源中找不到。
例如,我正在尝试从页面左侧抓取菜单,导航,在“ICD-10 Version:2016”下>“I某些传染病和寄生虫病”>A00-A09肠道传染病。 (
A00 霍乱
A01 伤寒和副伤寒
A02 其他沙门氏菌感染
。 . )
问题是由于某种原因无法在页面源中找到所有这些。所以当我抓取它时,我根本没有得到这些数据。
from bs4 import BeautifulSoup
import requests
import pandas as pd
from pandas import Series, DataFrame
url = 'https://icd.who.int/browse10/2016/en'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.76 Safari/537.36'}
result = requests.get(url, headers=headers)
c=result.content
soup = BeautifulSoup(c, 'html5lib')
【问题讨论】:
-
该数据可能在页面加载后异步加载。您需要能够执行加载数据的 JavaScript。我认为 Selenium 可以做到这一点
标签: pandas web-scraping beautifulsoup