lxml库

lxml库是我用起来最舒服的一个库了。
lxml库安装:pip install lxml。
进入环境from lxml import etree,如果没有报错,那就安装好了。
lxml相比BeautifulSoup最大的优点就是速度快,快上多少,大家可以去测试一下。
etree可以把HTML文档解析为Element对象
具体操作如下:

import requests
from lxml import etree

headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'
        }

res = requests.get('https://www.bilibili.com/',headers = headers)
html = etree.parse(res.text)
print(type(html))

lxml库还有着许多妙用,比如说,自动修正HTML代码。
如果读取的HTML文件缺了闭合标签,它会自动给我们补上。

from lxml import etree
text = '''
<div>
    <ul>
        <li><h1>我
        <li><h2>非
        <li><h3>常
        <li><h4>帅
        
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result)

输出结果:
爬虫入门到入土(五)Lxml库和Xpath语法

lxml语法

可看:
http://www.w3school.com.cn/xpath/xpath_syntax.asp

相关文章:

  • 2021-10-02
  • 2021-08-08
  • 2021-07-04
  • 2021-06-09
  • 2021-10-21
  • 2022-12-23
猜你喜欢
  • 2021-04-11
  • 2022-12-23
  • 2021-10-08
  • 2021-04-29
  • 2021-07-14
  • 2021-07-23
  • 2022-12-23
相关资源
相似解决方案