使用scrapy-redis搭建分布式爬虫环境-BFW博客

使用scrapy-redis搭建分布式爬虫环境

一、scrapy-redis简介

scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。

有如下特征：

 分布式爬取

　　您可以启动多个spider工程，相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。

 分布式数据处理

　　爬取到的scrapy的item数据可以推入到redis队列中，这意味着你可以根据需求启动尽可能多的处理程序来共享item的队列，进行item数据持久化处理

 Scrapy即插即用组件

　　Scheduler调度器 + Duplication复制过滤器，Item Pipeline，基本spider

二、scrapy-redis原理

使用scrapy-redis搭建分布式爬虫环境

可以看到，scrapy单机模式，通过一个scrapy引擎通过一个调度器，将Requests队列中的request请求发给下载器，进行页面的爬取。

1. 首先Slaver端从Master端拿任务（Request、url）进行数据抓取，Slaver抓取数据的同时，产生新任务的Request便提交给 Master 处理；

2. Master端只有一个Redis数据库，负责将未处理的Request去重和任务分配，将处理后的Request加入待爬队列，并且存储爬取的数据。

Scrapy-Redis默认使用的就是这种策略，我们实现起来很简单，因为任务调度等工作Scrapy-Redis都已经帮我们做好了，我们只需要继承RedisSpider、指定redis_key就行了。

缺点是，Scrapy-Redis调度的任务是Request对象，里面信息量比较大（不仅包含url，还有callback函数、headers等信息），

可能导致的结果就是会降低爬虫速度、而且会占用Redis大量的存储空间，所以如果要保证效率，那么就需要一定硬件水平。

那么多台主机协作的关键是共享一个爬取队列。

所以，单主机的爬虫架构如下图所示：

使用scrapy-redis搭建分布式爬虫环境

前文提到，分布式爬虫的关键是共享一个requests队列，维护该队列的主机称为master，而从机则负责数据的抓取，数据处理和数据存储，所以分布式爬虫架构如下图所示：

使用scrapy-redis搭建分布式爬虫环境

那么队列用什么维护呢，这里我们选用Redis队列进行存储，

Redis是一种高效的非关系型数据库，以...

点击查看剩余70%

打赏博主×

使用scrapy-redis搭建分布式爬虫环境

网友评论0

多核cpu与多个cpu区别

python阿里云百炼智能体工作流插件应用封装成mcp服务教程

tensorflow 使用Python训练模型，js使用模型

PHP中model first 和code first、database first区别

解析最常见的系统架构，揭秘阿里架构

electron开发一个pc桌面chatgpt聊天程序

人类的永生的密码会是数字生命吗？

一步一步教你搭建类似github的git服务器和Gitosis用户管理

一口气看完2024 Google I/O大会亮点

Clipboard.js 动态复制内容的方法

{{item.title}}

程序员会不会被人工智能替代

tensorflow 使用Python训练模型，js使用模型

在python中运行js代码的几个类库execjs，PyV8，js2py

python爬虫新类库requests-html，事半功倍

异构数据源离线同步工具DataX

使用scrapy-redis搭建分布式爬虫环境

andriod中使用retrofit进行网络请求【实战】

支付宝app支付RSA2签名放在服务端php的编写方式

js+php+java动态中文web字体生成压缩解决方案

php正则匹配多个结果，按位置顺序替换结果

python有没有多张实拍照片合并成360度全景照片的代码怎么写？

glb三维模型如何转换成vrm模型？

有没有ai可以直接根据描述生成vrm格式的模型？

sketchfab上的vrm可预览模型如何破解下载？

哪有免费的大胸妹子vrm三维模型文件？

如何在浏览器中通过摄像头捕获身体姿势来实时驱动三维角色同步？

华为与Android安卓手机如何运行python代码？

ai文生图如何生成短剧的九宫格分镜头？

为什么主流大模型架构都在用MoE，而不是传统的Dense?

js如何将图片转换成拼豆图案风格？