主要观点:Bloom 过滤器和杜鹃过滤器能在占用少量内存的情况下提供快速的近似集合成员关系,工程师用它们避免昂贵的磁盘和网络访问,最近引入的异或过滤器比 Bloom 和杜鹃过滤器更快且更小,文中构建的二进制融合过滤器在不牺牲查询速度的情况下接近存储下限的 13%,构建速度是异或过滤器的两倍多,稍牺牲查询速度后可将存储降至下限的 8%,并与多种竞争替代方案比较性能,实验表明二进制融合过滤器优于异或过滤器。
关键信息:主题为数据结构和算法;引用为[arXiv:2201.01174]及[arXiv:2201.01174v1];期刊参考为《实验算法杂志》2022 年;相关 DOI 链接相关资源;提交历史为 Daniel Lemire 于 2022 年 1 月 4 日 15:05:24 UTC 提交,大小 1425KB。
重要细节:异或过滤器存储接近理论下限的 23%,Bloom 过滤器为 44%;二进制融合过滤器构建速度快且存储接近下限的优势;与 Bloom 过滤器、阻塞 Bloom 过滤器、向量商过滤器、杜鹃过滤器和最近的丝带过滤器等多种方案比较性能。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。