【爬虫开发】爬虫开发从0到1全知识教程第15篇：scrapy爬虫框架,介绍【附代码文档】

本教程的知识点为：爬虫概要爬虫基础爬虫概述知识点： 1. 爬虫的概念 requests模块 requests模块知识点： 1. requests模块介绍 1.1 requests模块的作用：数据提取概要数据提取概述知识点 1. 响应内容的分类知识点：了解响应内容的分类 Selenium概要 selenium的介绍知识点： 1. selenium运行效果展示 1.1 chrome浏览器的运行效果 Selenium概要 selenium的其它使用方法知识点： 1. selenium标签页的切换知识点：掌握 selenium控制标签页的切换反爬与反反爬常见的反爬手段和解决思路学习目标 1 服务器反爬的原因 2 服务器常反什么样的爬虫反爬与反反爬验证码处理学习目标 1.图片验证码 2.图片识别引擎反爬与反反爬 JS的解析学习目标： 1 确定js的位置 1.1 观察按钮的绑定js事件 Mongodb数据库介绍内容 mongodb文档 mongodb的简单使用 Mongodb数据库介绍内容 mongodb文档 mongodb的聚合操作 Mongodb数据库介绍内容 mongodb文档 mongodb和python交互 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy的入门使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy管道的使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy中间件的使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy_redis原理分析并实现断点续爬以及分布式爬虫 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy的日志信息与配置利用appium抓取app中的信息介绍内容 appium环境安装学习目标

完整笔记资料代码：https://gitee.com/yinuo112/Backend/tree/master/爬虫/爬虫开发...

感兴趣的小伙伴可以自取哦~

全套教程部分目录：

部分文件图片：

scrapy爬虫框架

介绍

我们知道常用的流程web框架有django、flask，那么接下来，我们会来学习一个全世界范围最流行的爬虫框架scrapy

内容

scrapy的概念作用和工作流程
scrapy的入门使用
scrapy构造并发送请求
scrapy模拟登陆
scrapy管道的使用
scrapy中间件的使用
scrapy_redis概念作用和流程
scrapy_redis原理分析并实现断点续爬以及分布式爬虫
scrapy_splash组件的使用
scrapy的日志信息与配置
scrapyd部署scrapy项目

scrapy官方文档

[

scrapy_redis原理分析并实现断点续爬以及分布式爬虫

学习目标

了解 scrapy实现去重的原理
了解 scrapy中请求入队的条件
掌握 scrapy_redis基于url地址的增量式单机爬虫
掌握 scrapy_redis分布式爬虫

1. 下载github的demo代码

clone github scrapy-redis源码文件

`git clone

研究项目自带的demo

mv scrapy-redis/example-project ~/scrapyredis-project

2. 观察dmoz文件

在domz爬虫文件中，实现方式就是之前的crawlspider类型的爬虫

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class DmozSpider(CrawlSpider):
    """Follow categories and extract links."""
    name = 'dmoz'
    allowed_domains = ['dmoztools.net']
    start_urls = [' # 这里修改了url

    # 定义数据提取规则，使用了css选择器
    rules = [
        Rule(LinkExtractor(
            restrict_css=('.top-cat', '.sub-cat', '.cat-item')
        ), callback='parse_directory', follow=True),
    ]

    def parse_directory(self, response):
        for div in response.css('.title-and-desc'):
            yield {
                'name': div.css('.site-title::text').extract_first(),
                'description': div.css('.site-descr::text').extract_first().strip(),
                'link': div.css('a::attr(href)').extract_first(),
            }

但是在settings.py中多了以下内容,这几行表示scrapy_redis中重新实现的了去重的类，以及调度器，并且使用RedisPipeline管道类

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True

ITEM_PIPELINES = {
    'example.pipelines.ExamplePipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

3. 运行dmoz爬虫，观察现象

首先我们需要添加redis的地址，程序才能够使用redis

REDIS_URL = "redis://127.0.0.1:6379"
  
  
#或者使用下面的方式
  
  
  
  
# REDIS_HOST = "127.0.0.1"
  
  
  
  
# REDIS_PORT = 6379

我们执行domz的爬虫，会发现redis中多了一下三个键：

中止进程后再次运行dmoz爬虫

继续执行程序，会发现程序在前一次的基础之上继续往后执行，所以domz爬虫是一个基于url地址的增量式的爬虫

4. scrapy_redis的原理分析

我们从settings.py中的三个配置来进行分析分别是：

RedisPipeline # 管道类
RFPDupeFilter # 指纹去重类
Scheduler # 调度器类
SCHEDULER_PERSIST # 是否持久化请求队列和指纹集合

4.1 Scrapy_redis之RedisPipeline

RedisPipeline中观察process_item，进行数据的保存，存入了redis中

4.2 Scrapy_redis之RFPDupeFilter

RFPDupeFilter 实现了对request对象的加密

4.3 Scrapy_redis之Scheduler

scrapy_redis调度器的实现了决定什么时候把request对象加入带抓取的队列，同时把请求过的request对象过滤掉

4.4 由此可以总结出request对象入队的条件

request的指纹不在集合中
request的dont_filter为True，即不过滤
- start_urls中的url地址会入队，因为他们默认是不过滤

4.5 实现单机断点续爬

改写网易招聘爬虫，该爬虫就是一个经典的基于url地址的增量式爬虫

5. 实现分布式爬虫

5.1 分析demo中代码

打开example-project项目中的myspider_redis.py文件

通过观察代码：

继承自父类为RedisSpider
增加了一个redis_key的键，没有start_urls，因为分布式中，如果每台电脑都请求一次start_url就会重复
多了__init__方法，该方法不是必须的，可以手动指定allow_domains
启动方法：
1. 在每个节点正确的目录下执行scrapy crawl 爬虫名，使该节点的scrapy_redis爬虫程序就位
2. 在共用的redis中 lpush redis_key 'start_url'，使全部节点真正的开始运行
settings.py中关键的配置

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True

ITEM_PIPELINES = {
    'example.pipelines.ExamplePipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400,
}
REDIS_URL = "redis://127.0.0.1:6379"

5.2 动手实现分布式爬虫

改写tencent爬虫为分布式爬虫

注意：启动方式发生改变

小结

scrapy_redis的含义和能够实现的功能
1. scrapy是框架
2. scrapy_redis是scrapy的组件
3. scrapy_redis能够实现断点续爬和分布式爬虫
scrapy_redis流程和实现原理
1. 在scrapy框架流程的基础上，把存储request对象放到了redis的有序集合中，利用该有序集合实现了请求队列
2. 并对request对象生成指纹对象，也存储到同一redis的集合中，利用request指纹避免发送重复的请求
request对象进入队列的条件
1. request的指纹不在集合中
2. request的dont_filter为True，即不过滤
request指纹的实现
- 请求方法
- 排序后的请求地址
- 排序并处理过的请求体或空字符串
- 用hashlib.sha1()对以上内容进行加密
scarpy_redis实现增量式爬虫、布式爬虫
1. 对setting进行如下设置
  - DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
  - SCHEDULER = "scrapy_redis.scheduler.Scheduler"
  - SCHEDULER_PERSIST = True
  - ITEM_PIPELINES = {'scrapy_redis.pipelines.RedisPipeline': 400,}
  - REDIS_URL = "redis://127.0.0.1:6379" # 请正确配置REDIS_URL
2. 爬虫文件中的爬虫类继承RedisSpider类
3. 爬虫类中redis_key替代了start_urls
4. 启动方式不同
  - 通过scrapy crawl spider启动爬虫后，向redis_key放入一个或多个起始url（lpush或rpush都可以），才能够让scrapy_redis爬虫运行
5. 除了以上差异点以外，scrapy_redis爬虫和scrapy爬虫的使用方法都是一样的

scrapy_splash组件的使用

学习目标

了解 scrapy_splash组件的作用
了解 scrapy_splash组件的使用

1. 什么是scrapy_splash？

scrapy_splash是scrapy的一个组件

scrapy-splash加载js数据是基于Splash来实现的。
Splash是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器，Splash是用Python和Lua语言实现的，基于Twisted和QT等模块构建。
使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后的网页源代码。
splash官方文档 [

2. scrapy_splash的作用

scrapy-splash能够模拟浏览器加载js，并返回js运行后的数据

3. scrapy_splash的环境安装

3.1 使用splash的docker镜像

splash的dockerfile [

观察发现splash依赖环境略微复杂，所以我们可以直接使用splash的docker镜像

如果不使用docker镜像请参考 [splash官方文档]( 安装相应的依赖环境

3.1.1 安装并启动docker服务

安装参考 [

3.1.2 获取splash的镜像

在正确安装docker的基础上pull取splash的镜像

sudo docker pull scrapinghub/splash

3.1.3 验证是否安装成功

运行splash的docker服务，并通过浏览器访问8050端口验证安装是否成功

前台运行 sudo docker run -p 8050:8050 scrapinghub/splash
后台运行 sudo docker run -d -p 8050:8050 scrapinghub/splash

访问 [ 看到如下截图内容则表示成功

3.1.4 解决获取镜像超时:修改docker的镜像源

以ubuntu18.04为例

创建并编辑docker的配置文件

sudo vi /etc/docker/daemon.json

写入国内docker-cn.com的镜像地址配置后保存退出

{ 
"registry-mirrors": [" 
}

重启电脑或docker服务后重新获取splash镜像
这时如果还慢，请使用手机热点（流量orz）

3.1.5 关闭splash服务

需要先关闭容器后，再删除容器

sudo docker ps -a
sudo docker stop CONTAINER_ID
sudo docker rm CONTAINER_ID

3.2 在python虚拟环境中安装scrapy-splash包

pip install scrapy-splash

4. 在scrapy中使用splash

以baidu为例

4.1 创建项目创建爬虫

scrapy startproject test_splash
cd test_splash
scrapy genspider no_splash baidu.com
scrapy genspider with_splash baidu.com

4.2 完善settings.py配置文件

在settings.py文件中添加splash的配置以及修改robots协议

  
  
# 渲染服务的url
  
  
SPLASH_URL = '
  
  
# 下载器中间件
  
  
DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,

【爬虫开发】爬虫开发从0到1全知识教程第15篇：scrapy爬虫框架,介绍【附代码文档】

完整笔记资料代码：https://gitee.com/yinuo112/Backend/tree/master/爬虫/爬虫开发...

感兴趣的小伙伴可以自取哦~

全套教程部分目录：

部分文件图片：

scrapy爬虫框架

介绍

内容

scrapy官方文档

scrapy_redis原理分析并实现断点续爬以及分布式爬虫

学习目标

1. 下载github的demo代码

2. 观察dmoz文件

3. 运行dmoz爬虫，观察现象

4. scrapy_redis的原理分析

4.1 Scrapy_redis之RedisPipeline

4.2 Scrapy_redis之RFPDupeFilter

4.3 Scrapy_redis之Scheduler

4.4 由此可以总结出request对象入队的条件

4.5 实现单机断点续爬

5. 实现分布式爬虫

5.1 分析demo中代码

5.2 动手实现分布式爬虫

注意：启动方式发生改变

小结

scrapy_splash组件的使用

学习目标

1. 什么是scrapy_splash？

2. scrapy_splash的作用

3. scrapy_splash的环境安装

3.1 使用splash的docker镜像

3.1.1 安装并启动docker服务

3.1.2 获取splash的镜像

3.1.3 验证是否安装成功

3.1.4 解决获取镜像超时:修改docker的镜像源

3.1.5 关闭splash服务

3.2 在python虚拟环境中安装scrapy-splash包

4. 在scrapy中使用splash

4.1 创建项目创建爬虫

4.2 完善settings.py配置文件

程序员一诺python

引用和评论

🤩必看！Cherry Studio + DeepSeek 搭建本地私有知识库！

🔥全程不用写代码，我用 AI 程序员写了一个飞机大战

再见 XShell！一款万能通用的终端工具，用完爱不释手！

🔥必看！AnythingLLM+DeepSeek 快速构建私有知识库！

追女神必备！使用 Python 构建小红书用户动态监控系统（二）- 实现自动点赞和评论功能

Redis 持久化原理分析和使用建议

MyBatis-Plus结合Spring Boot实现数据权限