bloom 简单的说就是 K 个hash函数,对于一个key可以算出k个hask(key),然后将数组arr(hask(key)) = 1。判断一个key是否已经抓过,就按照上面的流程再算一遍,所有的hask(key)都是1就是已经爬过的。 推荐你用bloom filter的人,估计也就随口说,你搞不定这个,你用KV把所有爬过的Url存下来也行啊。。。
bloom 简单的说就是 K 个hash函数,对于一个key可以算出k个hask(key),然后将数组arr(hask(key)) = 1。判断一个key是否已经抓过,就按照上面的流程再算一遍,所有的hask(key)都是1就是已经爬过的。
推荐你用bloom filter的人,估计也就随口说,你搞不定这个,你用KV把所有爬过的Url存下来也行啊。。。