爬虫学习笔记（六）PyQuery模块

PyQuery模块也是一个解析html的一个模块，它和Beautiful Soup用起来差不多，它是jquery实现的，和jquery语法差不多，会用jquery的人用起来就比较方便了。

Pyquery需要依赖lxml模块，不装的话，使用会报错。

安装

1 2	lxml pyquery

解析html的3种方式

PyQuery

<html><head><title>BestTest</title></head>

<body>

<div>

课程详情请点击上面的链接.</p>

</div>

</body>

</html>

#解析html的3种方式

#指定url

#指定html字符串

#指定文件

)

css选择器

css在bs模块里面也用过，用法差不多。具体如下

# css选择器

#通过class

#通过id

#找到所有class为content和id为link1的

#在content下面找到id为link1的元素

#找到所有的a标签

#找到所有带有href属性的元素

#找到a标签下面target为_blank的

常用方法

eq方法，获取第几个元素

)

#a标签里面第一个

#a标签里面第二个

# items()

#如果找到多个元素的话，想循环取元素的话，就得用.items()方法，items就是为了循环用的

)

# text() 、html()

#text()方法是获取元素里面的文字的，html()是获取元素的html

)

#html格式的

#只有里面的文字

#find方法，查找元素

#从所有的p标签里面找到a标签

#找到所有的p标签

#找到所有class为content的

#filter方法，用来筛选

#先找到a标签，然后从a标签里面筛选出来id为link1的

#attr方法，获取属性

#获取id为link1的href的属性值