以下是一段python 实现的simhash算法,当前小生存在的问题是,对下面的一段代码看不懂。
在我标记的地方请大神帮忙解答下。
#!/usr/bin/python
# coding=utf-8
class simhash:
# 构造函数
def __init__(self, tokens='', hashbits=128):
self.hashbits = hashbits
self.hash = self.simhash(tokens);
# toString函数
def __str__(self):
return str(self.hash)
# 生成simhash值
def simhash(self, tokens):
v = [0] * self.hashbits
for t in [self._string_hash(x) for x in tokens]: # t为token的普通hash值
**for i in range(self.hashbits):#---------从这里开始看不懂了
bitmask = 1 << i #要这个是干什么?
if t & bitmask:
v[i] += 1 # 查看当前bit位是否为1,是的话将该位+1 --为什么要这么做?
else:
v[i] -= 1 # 否则的话,该位-1
fingerprint = 0
for i in range(self.hashbits):
if v[i] >= 0:
fingerprint += 1 << i #--这里有是在干什么?
return fingerprint # 整个文档的fingerprint为最终各个位>=0的和**
#----------以上这部分是在做什么???求大神一句句的讲解
# 求海明距离
def hamming_distance(self, other):
x = (self.hash ^ other.hash) & ((1 << self.hashbits) - 1)
tot = 0;
while x:
tot += 1
x &= x - 1
return tot
# 求相似度
def similarity(self, other):
a = float(self.hash)
b = float(other.hash)
if a > b:
return b / a
else:
return a / b
# 针对source生成hash值 (一个可变长度版本的Python的内置散列)
def _string_hash(self, source): #----------这个也看不懂?
if source == "":
return 0
else:
x = ord(source[0]) << 7 #--这一步什么意思?
m = 1000003
mask = 2 ** self.hashbits - 1
for c in source:
x = ((x * m) ^ ord(c)) & mask
x ^= len(source)
if x == -1:
x = -2
return x
if __name__ == '__main__':
s = 'This is a test string for testing'
hash1 = simhash(s.split())#按照空格进行分类
s = 'This is a test string for testing also'
hash2 = simhash(s.split())
s = 'nai nai ge xiong cao'
hash3 = simhash(s.split())
print(hash1,hash2,hash3)
print(hash1.hamming_distance(hash2), " ", hash1.similarity(hash2))
print(hash1.hamming_distance(hash3), " ", hash1.similarity(hash3))
simhash算法大致可分为这几个步骤:分词,hash,加权,合并,降维。结合这几个步骤来解释代码。
1 分词,就是代码中的split按空格进行分类
2 hash,计算上一步的每个词的hash值,就是_string_hash方法(方法中x和m的取值,应该都属于hash算法的参数,和simhash本身关系不大),这里算出来的hash值是一个128位整数
3 加权,把每一个分词的hash值加权,这里的权重取的是单词出现次数,对应的位是1就加1,是0就减1
4 合并,把所有分词的加权后的值合并,就是简单的相加
5 降维,上一步合并后的值,大于0则记为1,小于0则记为0
代码中并没有严格按照3,4,5的先后步骤处理,而是把这3个步骤一起做了: