BloomFilter 在爬虫里该如何用?

最近在练习爬虫,有人推荐用 BloomFilter 算法来判断url是否已经抓过,看了一些资料,还是不太明白该怎么写出来,求大牛指导。

阅读 4.3k
2 个回答

bloom 简单的说就是 K 个hash函数,对于一个key可以算出k个hask(key),然后将数组arr(hask(key)) = 1。判断一个key是否已经抓过,就按照上面的流程再算一遍,所有的hask(key)都是1就是已经爬过的。


推荐你用bloom filter的人,估计也就随口说,你搞不定这个,你用KV把所有爬过的Url存下来也行啊。。。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题