使用scrapy-redis搭建分布式爬虫环境-BFW博客

使用scrapy-redis搭建分布式爬虫环境

一、scrapy-redis简介

scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。

有如下特征：

 分布式爬取

　　您可以启动多个spider工程，相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。

 分布式数据处理

　　爬取到的scrapy的item数据可以推入到redis队列中，这意味着你可以根据需求启动尽可能多的处理程序来共享item的队列，进行item数据持久化处理

 Scrapy即插即用组件

　　Scheduler调度器 + Duplication复制过滤器，Item Pipeline，基本spider

二、scrapy-redis原理

使用scrapy-redis搭建分布式爬虫环境

可以看到，scrapy单机模式，通过一个scrapy引擎通过一个调度器，将Requests队列中的request请求发给下载器，进行页面的爬取。

1. 首先Slaver端从Master端拿任务（Request、url）进行数据抓取，Slaver抓取数据的同时，产生新任务的Request便提交给 Master 处理；

2. Master端只有一个Redis数据库，负责将未处理的Request去重和任务分配，将处理后的Request加入待爬队列，并且存储爬取的数据。

Scrapy-Redis默认使用的就是这种策略，我们实现起来很简单，因为任务调度等工作Scrapy-Redis都已经帮我们做好了，我们只需要继承RedisSpider、指定redis_key就行了。

缺点是，Scrapy-Redis调度的任务是Request对象，里面信息量比较大（不仅包含url，还有callback函数、headers等信息），

可能导致的结果就是会降低爬虫速度、而且会占用Redis大量的存储空间，所以如果要保证效率，那么就需要一定硬件水平。

那么多台主机协作的关键是共享一个爬取队列。

所以，单主机的爬虫架构如下图所示：

使用scrapy-redis搭建分布式爬虫环境

前文提到，分布式爬虫的关键是共享一个requests队列，维护该队列的主机称为master，而从机则负责数据的抓取，数据处理和数据存储，所以分布式爬虫架构如下图所示：

使用scrapy-redis搭建分布式爬虫环境

那么队列用什么维护呢，这里我们选用Redis队列进行存储，

Redis是一种高效的非关系型数据库，以...

点击查看剩余70%

打赏博主×

使用scrapy-redis搭建分布式爬虫环境

网友评论0

BFWSOA框架创建一个小应用

java、php中RSA产生公钥和私钥、校验、加密、解密的几种方法

模仿是谎言的开始:看穿人工智能的伪智慧

js加密解密二进制文件方法

在CentOS配置穿透服务器 turnserver

linux下安装kafka及php扩展记录

ml5js入门教程-4行代码搞定图片分类

如何使用 Python+tensorflow+keras进行深度学习创建聊天机器人

程序员的出路在哪？

Google关闭了中文搜索项目(Dragonfly)

{{item.title}}

程序员会不会被人工智能替代

tensorflow 使用Python训练模型，js使用模型

在python中运行js代码的几个类库execjs，PyV8，js2py

python爬虫新类库requests-html，事半功倍

异构数据源离线同步工具DataX

使用scrapy-redis搭建分布式爬虫环境

andriod中使用retrofit进行网络请求【实战】

支付宝app支付RSA2签名放在服务端php的编写方式

js+php+java动态中文web字体生成压缩解决方案

php正则匹配多个结果，按位置顺序替换结果

如何结合python+js如何自己的视频编码与加密播放直播？

python如何在电脑上通过局域网将本地视频或m3u8视频投屏电视播放？

腾讯视频爱奇艺优酷vip电影电视剧视频如何通过python绕过vip收费直接观看？

有没有可免费观看全球电视台直播m3u8地址url的合集？

有没有实现观影自由的免vip影视苹果 CMS V10 API的可用url？

python如何实时检测电脑usb插入检测报警？

如何判断真人操作的鼠标移动直线轨迹与机器操作的轨迹？

人形机器人的运动能否有端侧ai全面接管？

有没有抓取抖音头条等自媒体平台指定主题的评论的python开源程序？

css如何实现多个代码块向下滚动右上角复制按钮sticky粘性在顶部效果？