爬虫

【python爬虫】爬虫所需要的爬虫代理ip是什么?

前言 在进行爬虫程序开发时,经常会遇到访问被限制的网站,这时就需要使用代理 IP 来进行访问。本文将介绍代理 IP 的概念及使用方法,帮助读者更好地应对爬虫程序中的访问限制问题。同时,本文还将提供一些代理 IP 提供商,并通过一个实例演示如何使用代理 IP 来访问被限制的网站。 一、什么是爬虫代理 ... »

wq01

Java爬虫实战系列2——动手写爬虫初体验

在上面的章节中,我们介绍了几个目前比较活跃的Java爬虫框架。在今天的章节中,我们会参考开源爬虫框架,开发我们自己的Java爬虫软件。 首先,我们下载本章节要使用到的源代码,本章节主要提供了基于HTTPClient和WebDriver两种方式的数据抓取器。在运行该库之前,我们还需要准备一下我们的开发 ... »

kaiblog

【爬虫实战】用python爬豆瓣电影《热烈》短评

[toc] # 一、爬虫对象-豆瓣电影短评 您好!我是[@马哥python说](https://www.cnblogs.com/mashukui/),一名10年程序猿。 今天分享一期爬虫案例,爬取的目标是:豆瓣上任意一部电影的短评(注意:是短评,不是影评!),以《热烈》这部电影为例: ![爬取目标] ... »

Java爬虫实战系列——常用的Java网络爬虫库

## 常用的Java网络爬虫库 Java 开发语言是业界使用最广泛的开发语言之一,在互联网从业者中具有广泛的使用者,Java 网络爬虫可以帮助 Java 开发人员以快速、简单但广泛的方式为各种目的抓取数据。平常我们在讨论网络爬虫的时候,很多人都会想到使用 Python 语言,因为与 Python 相 ... »

kaiblog

测试与爬虫—抓包神器之Charles

# 前言 之前我们讲到过fiddler(https://www.cnblogs.com/zichliang/p/16067941.html),wireshark(https://www.cnblogs.com/zichliang/p/17477251.html) 今天我们来讲讲另一款跨平台的抓包软件 ... »

zichliang

[爬虫]2.3.1 使用Python操作文件系统

Python提供了许多内置库来处理文件系统,如`os`、`shutil`和`pathlib`等,这些库可以帮助你创建、删除、读取、写入文件和目录。 ## 读取文件 在Python中,你可以使用内置的`open`函数来打开一个文件。`open`函数返回一个文件对象,你可以对这个对象进行各种操作。 以下 ... »

yaoqian

[爬虫]1.2.2 CSS选择器

CSS (Cascading Style Sheets) 是一种样式表语言,用于描述HTML元素的样式。CSS选择器是CSS规则的一部分,它决定了CSS规则应用于哪些元素。在网络爬虫的开发中,我们经常使用CSS选择器来定位和选取HTML元素。 以下是一些常见的CSS选择器: ## 1. 元素选择器 ... »

yaoqian

[爬虫]1.2.1 HTML标签和属性

HTML(HyperText Markup Language)是一种用于创建网页的标记语言。HTML文档由一系列的HTML标签构成,每个标签都有自己的意义和用途。HTML标签通常成对出现,由一个开始标签和一个结束标签组成,结束标签的名称前有一个斜杠。 例如,``是一个段落标签的开始,``是一个段落标 ... »

yaoqian

[爬虫]1.1.3 网络爬虫的应用场景

网络爬虫在各种不同的领域都有广泛的应用。它们可以用来收集,分析,处理和理解大量的在线信息。以下是网络爬虫的一些主要应用场景: ## 1. 搜索引擎 搜索引擎,如Google,Bing,和Baidu,是网络爬虫的最主要的应用场景。搜索引擎使用网络爬虫来抓取网页内容,然后对这些内容进行索引并存储在数据库 ... »

yaoqian

[爬虫]1.1.2 网络爬虫的工作原理

网络爬虫(Web Crawler),也被称为网页蜘蛛(Spider),是一种用来自动浏览互联网的网络机器人。其主要目标通常是为搜索引擎创建复制的网页内容,但它们也可以被用于其他目的,比如数据挖掘。 现在,我们一起来深入理解一下网络爬虫的工作原理。整个过程可以被大致分为四个步骤: 1. 发送HTTP请 ... »

yaoqian

[爬虫]3.4.1 Scrapy框架的基本使用

Scrapy是一款强大的Python网络爬虫框架,它可以帮助你快速、简洁地编写爬虫程序,处理数据抓取、处理和存储等复杂问题。 ## 1. 安装Scrapy 在开始使用Scrapy之前,你需要先将其安装在你的系统中。你可以使用Python的包管理器pip来安装Scrapy: ```bash pip i ... »

yaoqian

Python爬虫实战之提高CSDN访问量

[python爬虫之建立代理池(一)_CodingInCV的博客-CSDN博客](https://blog.csdn.net/liuhao3285/article/details/131762924) [python爬虫之建立代理池(二)_CodingInCV的博客-CSDN博客](https:// ... »

haoliuhust

[爬虫]3.2.2 分布式爬虫的架构

在分布式爬虫系统中,通常包括以下几个主要的组成部分:调度器、爬取节点、存储节点。我们接下来将详细介绍每一个部分的功能和设计方法。 ## 1. 调度器(Scheduler) 调度器是分布式爬虫系统中的核心,它负责管理和分发爬取任务。调度器通常需要处理以下功能: - **URL管理**:调度器需要管理一 ... »

yaoqian

[爬虫]2.2.1 使用Selenium库模拟浏览器操作

Selenium是一个非常强大的工具,用于自动化Web浏览器的操作。它可以模拟真实用户的行为,如点击按钮,填写表单,滚动页面等。由于Selenium可以直接与浏览器交互,所以它可以处理那些需要JavaScript运行的动态网页。 ## 安装Selenium 首先,我们需要安装Selenium库。你可 ... »

yaoqian

[爬虫]1.1.1网络爬虫的概念

网络爬虫,也称为网页爬虫或者网页蜘蛛,是一种用来自动浏览互联网的网络机器人。它们会按照特定的规则,从网页上获取信息,然后将这些信息保存下来。网络爬虫的名字来源于它们的工作方式,它们就像是在网络上爬行的蜘蛛,通过链接从一个网页爬到另一个网页。 ## 工作原理 网络爬虫的基本工作原理是按照一定的规则,自 ... »

yaoqian

Python爬虫突破验证码技巧 - 2Captcha

在互联网世界中,验证码作为一种防止机器人访问的工具,是爬虫最常遇到的阻碍。验证码的类型众多,从简单的数字、字母验证码,到复杂的图像识别验证码,再到更为高级的交互式验证码,每一种都有其独特的识别方法和应对策略。在这篇文章中,我们将一一介绍各种验证码的工作原理和使用[2Captcha](https://... ... »

xfuture

【爬虫案例】用Python爬取知乎热榜数据!

[toc] # 一、爬取目标 您好,我是[@马哥python说](https://www.zhihu.com/people/13273183132),一名10年程序猿。 本次爬取的目标是:[知乎热榜](https://www.zhihu.com/hot) ![知乎热榜页面](https://img2 ... »

mashukui

爬虫—图形验证码获取

# 获取验证码图片步骤 **1. 使用selenium操作谷歌浏览器,打开目标网站** **2. 对目标网站进行截图,并将图片保存到本地** **3. 获取验证码元素节点在屏幕上的位置,即横纵坐标** **4. 使用Image库读取保存的截图** **5. 使用pillow模块抠出大图中的验证码 只 ... »

XxMa

Python 爬虫实战:驾驭数据洪流,揭秘网页深处

**爬虫,这个经常被人提到的词,是对数据收集过程的一种形象化描述。特别是在Python语言中,由于其丰富的库资源和良好的易用性,使得其成为编写爬虫的绝佳选择。本文将从基础知识开始,深入浅出地讲解Python爬虫的相关知识,并分享一些独特的用法和实用技巧。本文将以实际的网站为例,深入阐述各个处理部分, ... »

xfuture