python爬虫

海水水质监测信息爬取

一、网址:url = 'http://ep.nmemc.org.cn:8888/Water/'二、代码 # !/usr/bin/env python # -*-coding:utf-8 -*- """ # File : 海水水质监测信息爬取.py # Time :2022/4/13 15:26 # ... »

python爬虫---字体反爬

###目标地址:http://glidedsky.com/level/web/crawler-font-puzzle-1 打开google调试工具检查发现网页上和源码之中的数字不一样, 已经确认该题目为 字体反扒 直接进入正题: ###获取字体文件: ####1丶直接找到数字节点属性:style 的 ... »

如何使用 python 爬取酷我在线音乐

前言 写这篇博客的初衷是加深自己对网络请求发送和响应的理解,仅供学习使用,请勿用于非法用途!文明爬虫,从我做起。下面进入正题。 获取歌曲信息列表 在酷我的搜索框中输入关键词 aiko,回车之后可以看到所有和 aiko 相关的歌曲。打开开发者模式,在网络面板下按下 ctrl + f,搜索 二人,可以找 ... »

python爬虫出现ProxyError: HTTPSConnectionPool错误

在今天刚刚打开pycharm运行爬虫时,发现所有的爬虫都不能运行,会出现如下的错误: 错误出现的主要原因是;代理错误(其实自己根本没有设置代理) 解决方法: 在网上查阅了许多类似的错误解决方法,试过后 »

zuixime0515

Python 基于 selenium 实现不同商城的商品价格差异分析系统

1. 前言 selenium 原本是一款自动化测试工具,因其出色的页面数据解析和用户行为模拟能力而常用于爬虫程序中,致使爬虫程序的爬取过程更简单、快捷。 爬虫程序与其它类型程序相比较,本质一样,为数据提供处理逻辑,只是爬虫程序的数据来源于 HTML 代码片段中。 怎样准确查找到页面中数据所在的标签( ... »

根据国家统计局的行政区划爬取阿里云地图边界

最近做一个大屏数据展示项目,需要用到全国地图及下钻功能,之前也写过一篇关于地图下钻的文章 https://www.cnblogs.com/weijiutao/p/13977011.html ,所用到的是Echarts 自带地图插件再加上很老的一份地图边界线,行政区划和边界线无法对应上,所以想到爬取一 ... »

Python爬虫教程—爬虫

1. 爬虫相关概念 1.1 定义 一段根据url爬取网页获取有用信息的程序,使用程序模拟浏览器向服务器发送请求获取响应信息 1.2 核心 爬取网页:爬取整个网页,包含网页所有内容 解析数据:将网页中的 »

iridescent-iu

python爬虫---实现项目(三) Selenium分析美团美食

上一期博客,我本来想爬取美团美食的,但是由于请求头太复杂,没有破解开其中的几个参数,所以放弃,这次我们来用selenium来模式浏览器抓取数据,我们先来简单看一下流程: 1,利用selenium驱动浏 »

cxiaocai

python爬虫 JS逆向思路

以下解密部分转自 [ 不止于python ] 破解参数 这篇来讲讲逆向破解js的方法, 先拿美团外卖的请求参数, X-FOR-WITH 练练手 请求地址: https://h5.w »

mswei

Python爬虫库Scrapy入门1--爬取当当网商品数据

1.关于scrapy库的介绍,可以查看其官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/ 2.安装:pip install scrapy  注意这个库的运行需要pywin32的支持,因此还需要安装pywin32。可以在这个网站上选择合适的版本下载安装:https://sourceforge.net/projects/pywin32/files/ »

python爬虫---实现项目(一) Requests爬取HTML信息

  上面的博客把基本的HTML解析库已经说完了,这次我们来给予几个实战的项目。   这次主要用Requests库+正则表达式来解析HTML。   项目一:爬取猫眼电影TOP100信息   代码地址:https://gitee.com/dwyui/maoyan-Requests.git   项目二:美食爬取(包含多层爬取)   代码地址:https://gitee.com/dwyui/meishi_ »

Python爬虫学习(1): urllib的使用

1.urllib.urlopen 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作 In [1]: import urllibIn [2]: file = urllib.urlopen("http://www.baidu.com")In [3]: file.readline()Out[3]: '<!DOCTYPE html><!--STATUS OK-- »

python爬虫 - js逆向之猿人学第十七题http2.0

前言 继续干17题,就是个http2.0协议,有关这个协议的,我之前就出过相关的文章:python爬虫 - 爬虫之针对http2.0的某网站爬取 代码 所以,就不多比比了,直接上代码:   import httpx headers = { "authority": "match.yuanrenxue.com", 'cookie': 'sessionid=换成你的sessioni »

python爬虫【第2篇】【多进程】

一、多进程 1.fork方法(os模块,适用于Lunix系统) fork方法:调用1次,返回2次。原因:操作系统经当前进程(父进程)复制出一份进程(子进程),两个进程几乎完全相同,fork方法分别在父进程、子进程中返回,子进程返回值为0,父进程中返回的是子进程的ID。 普通方法:调用1次,返回1次 import os if __name__ == '__main__': print ' »

python爬虫从入门到放弃(六)之 BeautifulSoup库的使用

原文地址https://www.cnblogs.com/zhaof/p/6930955.html 上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup “美味的汤,绿色的浓汤” 一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则 »

Python爬虫-- Scrapy框架

Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程并需要处理新进程的输出(如运行shell命令)、执行系统层次操作的代码(如等待系统队列),Twisted提供了允许执行上面的操作但不会阻塞代码执行的方法。   点击Scrapy框架,快速上手Python Scrapy框架的操 »

python爬虫 - Urllib库及cookie的使用

lz提示一点,python3中urllib包括了py2中的urllib+urllib2。[python2和python3的区别、转换及共存 - urllib] 怎样扒网页? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS。 如果把网页比作一个人,那么HTML便是他的骨 »

(转)Python爬虫学习笔记(2):Python正则表达式指南

以下内容转自CNBLOG:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正 »