PyQuery模块也是一个解析html的一个模块,它和Beautiful Soup用起来差不多,它是jquery实现的,和jquery语法差不多,会用jquery的人用起来就比较方便了。

Pyquery需要依赖lxml模块,不装的话,使用会报错。

安装

 

 
1
2
lxml
pyquery

 

 

解析html的3种方式

 

 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
PyQuery
<html><head><title>BestTest</title></head>
<body>
<div>
课程详情请点击上面的链接.</p>
</div>
</body>
</html>
#解析html的3种方式
#指定url
#指定html字符串
#指定文件
)
)
)

 

 

css选择器

css在bs模块里面也用过,用法差不多。具体如下

 
1
2
3
4
5
6
7
8
# css选择器
#通过class
#通过id
#找到所有class为content和id为link1的
#在content下面找到id为link1的元素
#找到所有的a标签
#找到所有带有href属性的元素
#找到a标签下面target为_blank的

 

常用方法

 

 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
eq方法,获取第几个元素
 
)
#a标签里面第一个
#a标签里面第二个
 
# items()
#如果找到多个元素的话,想循环取元素的话,就得用.items()方法,items就是为了循环用的
)
:
)
 
 
 
 
# text() 、html()
#text()方法是获取元素里面的文字的,html()是获取元素的html
 
)
#html格式的
#只有里面的文字
 
#find方法,查找元素
 
#从所有的p标签里面找到a标签
#找到所有的p标签
#找到所有class为content的
 
#filter方法,用来筛选
#先找到a标签,然后从a标签里面筛选出来id为link1的
 
#attr方法,获取属性
 
#获取id为link1的href的属性值

 

相关文章:

  • 2022-01-10
  • 2021-11-24
  • 2021-06-09
  • 2021-05-07
猜你喜欢
  • 2022-01-25
  • 2022-12-23
  • 2021-06-08
  • 2022-01-26
  • 2022-01-26
  • 2021-12-02
  • 2021-12-24
相关资源
相似解决方案