【python爬虫】抓取链接网页内的文本（第一步定位超链接文本）

第一步：

导入模块

-------------------------------------

第二步：

导入网址

url = "http://zsb.szu.edu.cn/zbs.html"

-------------------------------------------------------------------------

【python爬虫】抓取链接网页内的文本（第一步定位超链接文本）

第三步:

调动模块解析网址

>>> page = urllib.request.urlopen(url) #通过链接获取整个网页

>>> soup = BeautifulSoup(page,'lxml') #格式化排列

print(soup.prettify()) #打印出结构化的数据

第四步：

【python爬虫】抓取链接网页内的文本（第一步定位超链接文本）

--------------------------------------------------------

【python爬虫】抓取链接网页内的文本（第一步定位超链接文本）

-----------------------------------------------------------

下一步写，模拟浏览器的规格

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

下一步，复制Xpath路径

/html/body/div[5]/table/tbody/tr/td[2]/div[3]/div[1]/div[2]/a

【python爬虫】抓取链接网页内的文本（第一步定位超链接文本）

-----------------------------------------------------------

【python爬虫】抓取链接网页内的文本（第一步定位超链接文本）