信息标记与BeautifulSoup库
信息标记的作用
1.标记后的信息可形成信息组织结构,增加的信息的维度
2.标记后的信息可用于通信,存储或展示
3.标记的结构与信息一样具有重要的价值
4.标记后的信息更利于程序的理解和应用
现在国际上信息标记的通用形式有三种:
XML(eXtensible Markup Language)
基于HTML格式发展而来的通用信息表达形式。
JSON(JavaScript Object Notation)
是JavaScript语言中对面向对象信息的一种表达形式,用有类型的键值对构建的信息表达方式。
对于JavaScript来说可以直接将JSON格式作为程序的一部分使得编写程序大大简化。
YAML(YAML Ain't Markup Language)
YAML采用无类型的键值对来标记信息。
三种信息标记形式的比较
XML是最早的通用信息标记语言,可拓展性好但繁琐,主要用在Internet上的信息交互与传递。
JSON信息有类型,适合程序处理,比XML简洁,主要用在移动应用的云端和节点的互相通信,无注释。
YAML信息无类新,文本信息比例最高,可读性好,各类系统的配置文件,有注释易读。
信息提取的一般方法
HTML(Hyper Text Markup Language)
超文本标记语言是一种常用的信息标记语言,是WWW(World Wide Web)的信息组织方式。它能够将一些超文本的信息,例如声音,图像和视频嵌入到文本之中。
HTML可以通过预定义的标签<p>...</p>组织不同类型的信息。
BeautifulSoup库
beautifulsoup库是一个优秀的第三方库,它能够对XML格式进行解析并提取其中的相关信息。它是解析,遍历,维护“标签树”的功能库。https://www.crummy.com/software/BeautifulSoup
BeautifulSoup库的解析器有
BeautifulSoup类的基本元素有