PyQuery模块也是一个解析html的一个模块,它和Beautiful Soup用起来差不多,它是jquery实现的,和jquery语法差不多,会用jquery的人用起来就比较方便了。
Pyquery需要依赖lxml模块,不装的话,使用会报错。
安装
|
1
2
|
lxml
pyquery
|
解析html的3种方式
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
PyQuery
<html><head><title>BestTest</title></head>
<body>
<div>
课程详情请点击上面的链接.</p>
</div>
</body>
</html>
#解析html的3种方式
#指定url
#指定html字符串
#指定文件
)
)
)
|
css选择器
css在bs模块里面也用过,用法差不多。具体如下
|
1
2
3
4
5
6
7
8
|
# css选择器
#通过class
#通过id
#找到所有class为content和id为link1的
#在content下面找到id为link1的元素
#找到所有的a标签
#找到所有带有href属性的元素
#找到a标签下面target为_blank的
|
常用方法
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
|
eq方法,获取第几个元素
)
#a标签里面第一个
#a标签里面第二个
# items()
#如果找到多个元素的话,想循环取元素的话,就得用.items()方法,items就是为了循环用的
)
:
)
# text() 、html()
#text()方法是获取元素里面的文字的,html()是获取元素的html
)
#html格式的
#只有里面的文字
#find方法,查找元素
#从所有的p标签里面找到a标签
#找到所有的p标签
#找到所有class为content的
#filter方法,用来筛选
#先找到a标签,然后从a标签里面筛选出来id为link1的
#attr方法,获取属性
#获取id为link1的href的属性值
|