获取数据笔记


第一章 准备阶段

1 Mongo:把字典存到excel表格里

使用方法:在终端输入“mongod”,始终开着。

client = pymongo.MongoClient(’localhost’,27017)

表名 = clint[‘表名’]

子表名 = 表名[‘子表名’]

子表名.insert_one(数据)        ##插入数据

for i in 表格行.find()               ##读取表格中每行

a = I[‘列名’]       ##取出该行某一列的数据


2 requests: 获取动态网络信息,python

使用方法:wb_data = requests.get(url)


3 BeautifulSoup:解析网络信息,python包,名字为bs4

使用方法:

获取数据(爬虫)笔记


4 time

使用方法:time.sleep(1)


第二章 多进程爬虫的数据爬取


做个比喻:

一个进程占一个cpu

单进程单线程——一个人在一张桌子上吃饭

单进程多线程——多个人在一张桌子上吃饭

多进程单线程——多个人在多张桌子上吃饭(每桌一个人)

多进程多线程——多个人在多张桌子上吃饭(每桌多个人)


所需库:from multiprocessing import Pool

使用方法:   

if __name__== __main__:

pool = Pool(processes = 进程数)  ###电脑有几核会自动识别进程数为几


相关文章:

  • 2022-12-23
  • 2021-11-26
  • 2022-12-23
  • 2022-02-09
  • 2022-12-23
  • 2021-04-02
  • 2021-07-10
  • 2021-11-12
猜你喜欢
  • 2022-12-23
  • 2021-12-15
  • 2021-11-21
  • 2021-12-31
  • 2021-06-19
  • 2022-01-07
相关资源
相似解决方案