第一步:

导入模块

  1. >>> import re  
  2. >>> from bs4 import BeautifulSoup  
  3. >>> import urllib.request 

-------------------------------------

第二步:

导入网址

url = "http://zsb.szu.edu.cn/zbs.html"  

-------------------------------------------------------------------------

【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)

第三步:

调动模块解析网址

>>> page = urllib.request.urlopen(url) #通过链接获取整个网页

>>> soup = BeautifulSoup(page,'lxml') #格式化排列

print(soup.prettify()) #打印出结构化的数据

第四步:

【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)

--------------------------------------------------------

【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)

-----------------------------------------------------------

下一步写,模拟浏览器的规格

 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

下一步,复制Xpath路径

/html/body/div[5]/table/tbody/tr/td[2]/div[3]/div[1]/div[2]/a

【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)

-----------------------------------------------------------

【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)

【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)


【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)


【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)


【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)


【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)


【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)



【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)

【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)





相关文章:

  • 2021-12-01
  • 2022-01-04
  • 2022-12-23
  • 2021-09-25
  • 2022-12-23
  • 2022-02-07
  • 2021-09-05
  • 2021-07-17
猜你喜欢
  • 2021-06-25
  • 2022-12-23
  • 2021-04-24
  • 2021-07-14
  • 2021-07-02
  • 2022-02-13
  • 2022-12-23
相关资源
相似解决方案