scrapy-redis的布隆去重

- 为什么要使用布隆去重?

scrapy自带去重机制,即将所需要爬取的网页放在set中来达到去重的目的,但是在实际工作中,我们需要更新数据的时候往往不需要爬取已经爬取过的页面,这时候set去重就达不到目的了,会造成重复爬取url,所以我们要用到布隆去重。

- 布隆去重的优点和缺点

优点

相比于其它的数据结构,布隆过滤器在空间和时间方面都有巨大的优势。布隆过滤器存储空间和插入/查询时间都是常数。另外, Hash 函数相互之间没有关系,方便由硬件并行实现。布隆过滤器不需要存储元素本身,在某些对保密要求非常严格的场合有优势

缺点

但是布隆过滤器的缺点和优点一样明显。误算率(False Positive)是其中之一。随着存入的元素数量增加,误算率随之增加。但是如果元素数量太少,则使用散列表足矣。

  • 布隆去重的使用方法

打开项目,把scrapy_redis从环境文件中拷贝一份粘贴到scrapy项目中,这样做的目的是为这个项目单独配置去重方案

而环境中的scrapy_redis却不会变,其他项目不用使用布隆去重方案。

clipboard.png

下载 布隆过滤器py文件,将其拷贝至scrapy_redis包中。(这个py文件有很多大牛都有写,课件也有和这个稍有不同原理相同)

clipboard.png

修改scrapy_reids中的dupefilter文件,修改其去重策略。

from .BloomfilterOnRedis import BloomFilter

clipboard.png

修改其 request_seen函数

if self.bf.isContains(fp):

return True

else:

self.bf.insert(fp)

return False

clipboard.png

按照分布式爬虫部署步骤,继续进行即可使用布隆去重策略


zzZ摇篮曲
28 声望2 粉丝

程序猿?菜鸟?我们不只是spider!!!