信息标记与BeautifulSoup库

信息标记的作用

1.标记后的信息可形成信息组织结构,增加的信息的维度

2.标记后的信息可用于通信,存储或展示

3.标记的结构与信息一样具有重要的价值

4.标记后的信息更利于程序的理解和应用

现在国际上信息标记的通用形式有三种:

XML(eXtensible Markup Language)

基于HTML格式发展而来的通用信息表达形式。

python爬虫学习笔记(二)

python爬虫学习笔记(二)

python爬虫学习笔记(二)

JSON(JavaScript Object Notation)

是JavaScript语言中对面向对象信息的一种表达形式,用有类型的键值对构建的信息表达方式。

python爬虫学习笔记(二)

对于JavaScript来说可以直接将JSON格式作为程序的一部分使得编写程序大大简化。

YAML(YAML Ain't Markup Language)

YAML采用无类型的键值对来标记信息。

python爬虫学习笔记(二)

三种信息标记形式的比较

XML是最早的通用信息标记语言,可拓展性好但繁琐,主要用在Internet上的信息交互与传递。

JSON信息有类型,适合程序处理,比XML简洁,主要用在移动应用的云端和节点的互相通信,无注释。

YAML信息无类新,文本信息比例最高,可读性好,各类系统的配置文件,有注释易读。

信息提取的一般方法

python爬虫学习笔记(二)

python爬虫学习笔记(二)

python爬虫学习笔记(二)

HTML(Hyper Text Markup Language)

超文本标记语言是一种常用的信息标记语言,是WWW(World Wide Web)的信息组织方式。它能够将一些超文本的信息,例如声音,图像和视频嵌入到文本之中。

HTML可以通过预定义的标签<p>...</p>组织不同类型的信息。

python爬虫学习笔记(二)

python爬虫学习笔记(二)

BeautifulSoup库

beautifulsoup库是一个优秀的第三方库,它能够对XML格式进行解析并提取其中的相关信息。它是解析,遍历,维护“标签树”的功能库。https://www.crummy.com/software/BeautifulSoup

python爬虫学习笔记(二)

BeautifulSoup库的解析器有

python爬虫学习笔记(二)

BeautifulSoup类的基本元素有

python爬虫学习笔记(二)

 

相关文章:

猜你喜欢
相关资源
相似解决方案