如何用redis去重?

分别从几个固定的网站上爬取数据;
为了url去重,我用<set get>的字符串型存储?还是用<SADD SMEMBERS>的sets型存储?

需要存储url数目,大概初期在100k-1000k之间。

阅读 16k
4 个回答

用集合吧,集合的不重复性太适用了。

$key = 'URL_HASH';
if(!$redis->hGet($key, md5($url))){
    // do something ...
    // 抓取一个 $url 后
    $redis->hSet($key, md5($url), true);
}

这里需要注意的是,如果是多线程的,要考虑其他进程,可以吧 bool 值改为枚举值。

新手上路,请多包涵

使用布隆过滤器来实现

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进