GitHub - nishihatapalmer/HashChain: 一种非常快速的在线搜索算法

主要观点:HashChain 是一类快速的基于因子的亚线性精确匹配搜索算法家族。
关键信息:通过基于待搜索模式中 q-gram 及其相邻 q-gram 的哈希构建布隆过滤器,高效拒绝文本中的非相邻 q-gram 以跳过错配因子;有多个相关算法如 HashChain、SentinelHashChain、WeakerHashChain、LinearHashChain 等;还有类似算法如 Weak Factor Recognition (WFR)、Linear WFR (LWFR)、Q-gram 过滤 (QF)等,各有特点。
重要细节:HashChain 算法的预印本在 arXiv 上,其论文被 Symposium on Experimental Algorithmics 2024 接受并可在特定网站获取;WFR 利用滚动哈希函数有较长预处理阶段和更高误报率,尤其适用于低熵数据;LWFR 通过两种技术在最坏情况线性且平均亚线性;QF 使用对齐概念,空间设置位受 Q 限制而非内存中单词大小。

阅读 7
0 条评论