求解 python simhash函数实现问题解答

Question

求解 python simhash函数实现问题解答

发布于
2019-01-03

以下是一段python 实现的simhash算法，当前小生存在的问题是，对下面的一段代码看不懂。
在我标记的地方请大神帮忙解答下。

#!/usr/bin/python
# coding=utf-8
class simhash:
    # 构造函数
    def __init__(self, tokens='', hashbits=128):
        self.hashbits = hashbits
        self.hash = self.simhash(tokens);

    # toString函数
    def __str__(self):
        return str(self.hash)

    # 生成simhash值
    def simhash(self, tokens):
        v = [0] * self.hashbits
        for t in [self._string_hash(x) for x in tokens]:  # t为token的普通hash值
            **for i in range(self.hashbits):#---------从这里开始看不懂了
                bitmask = 1 << i  #要这个是干什么？
                if t & bitmask:
                    v[i] += 1  # 查看当前bit位是否为1,是的话将该位+1  --为什么要这么做？
                else:       
                    v[i] -= 1  # 否则的话,该位-1
        fingerprint = 0
        for i in range(self.hashbits):
            if v[i] >= 0:
                fingerprint += 1 << i #--这里有是在干什么？
        return fingerprint  # 整个文档的fingerprint为最终各个位>=0的和**
        #----------以上这部分是在做什么？？？求大神一句句的讲解
    # 求海明距离
    def hamming_distance(self, other):
        x = (self.hash ^ other.hash) & ((1 << self.hashbits) - 1)
        tot = 0;
        while x:
            tot += 1
            x &= x - 1
        return tot

    # 求相似度
    def similarity(self, other):
        a = float(self.hash)
        b = float(other.hash)
        if a > b:
            return b / a
        else:
            return a / b

    # 针对source生成hash值   (一个可变长度版本的Python的内置散列)
    def _string_hash(self, source):  #----------这个也看不懂？
        if source == "":
            return 0
        else:
            x = ord(source[0]) << 7 #--这一步什么意思？
            m = 1000003
            mask = 2 ** self.hashbits - 1
            for c in source:
                x = ((x * m) ^ ord(c)) & mask
            x ^= len(source)
            if x == -1:
                x = -2
            return x


if __name__ == '__main__':
    s = 'This is a test string for testing'
    hash1 = simhash(s.split())#按照空格进行分类

    s = 'This is a test string for testing also'
    hash2 = simhash(s.split())

    s = 'nai nai ge xiong cao'
    hash3 = simhash(s.split())
    print(hash1,hash2,hash3)

    print(hash1.hamming_distance(hash2), "   ", hash1.similarity(hash2))
    print(hash1.hamming_distance(hash3), "   ", hash1.similarity(hash3))

python

阅读 3.1k

1 个回答

shadowwolf

simhash算法大致可分为这几个步骤：分词，hash，加权，合并，降维。结合这几个步骤来解释代码。
1 分词，就是代码中的split按空格进行分类
2 hash，计算上一步的每个词的hash值，就是_string_hash方法（方法中x和m的取值，应该都属于hash算法的参数，和simhash本身关系不大），这里算出来的hash值是一个128位整数
3 加权，把每一个分词的hash值加权，这里的权重取的是单词出现次数，对应的位是1就加1，是0就减1
4 合并，把所有分词的加权后的值合并，就是简单的相加
5 降维，上一步合并后的值，大于0则记为1，小于0则记为0

代码中并没有严格按照3，4，5的先后步骤处理，而是把这3个步骤一起做了：

    def simhash(self, tokens):
        v = [0] * self.hashbits
        for t in [self._string_hash(x) for x in tokens]:  # 这一层循环是有加权和合并的功能，因为同一个单词出现多次的话，这里也会循环多次，所以相当于加权，遍历了所有单词的hash值，是在合并
            **for i in range(self.hashbits): # 按位取每个分词的hash值
                bitmask = 1 << i  # 为了下面的判断
                if t & bitmask: # 判断t的第i位是否为1
                    v[i] += 1  # 加权
                else:       
                    v[i] -= 1  # 加权
        fingerprint = 0
        for i in range(self.hashbits):
            if v[i] >= 0: # 这里是降维
                fingerprint += 1 << i # 可以这么理解，通过降维，v变成一个数组表示的二进制数，这里是把二进制v转换成十进制，fingerprint是v的十进制
        return fingerprint  # 整个文档的fingerprint为最终各个位>=0的和**

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

求解 python simhash函数实现问题解答

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

求解 python simhash函数实现问题解答

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？