php根据相似度查找重复数据怎么实现？

vikieQ

10531118

发布于
2016-04-27

有一个具有几千条数据的表，数据库用的mysql，想寻找一个算法根据数据的相似度查找重复的数据，并将其罗列出来，有能提供方法或思路的兄弟们欢迎来凑，先谢过了！

php sublime-text

mysql nginx

阅读 4.2k

2 个回答

phpgod

1.首先，题主应该选一个相似度的计算维度，比如content字段，type字段等；
2.其次，题主考虑一下各个字段的权重，比如type字段必须相同，则让type字段使用typeWeight（例如赋值0.8）作为乘积的因子，而content字段本身是比较长的，所以需要计算出一个hash值，比如使用特定算法计算出一个hash值，然后把这个hash值按照16进制计算得到10进制数，再给一个权重contentWeight（例如0.2），另外再选取一个字段，比如description描述字段，再给一个权重descriptionWeight...
3.最后得到一个当前插入到表中的记录综合hash，typeWeight(contentHashcontentWeight+descriptionHash*descriptionWeight +...),可能会涉及到大整数计算，不过PHP有BCMATH扩展可以使用，最终得到一个数值的综合hash值，保存到数据库的一个字段中，这个东西就可以理解为本条记录的特征值。

我勒个去

1.9k43953

发布于
2016-04-27

看你的需求,方法还是挺多而来,比如说2个字符串的距离,如汉明距离。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

php根据相似度查找重复数据怎么实现？

你尚未登录，登录后可以

上面的sql通过login_time排序但是结果不对？

java开发发问URL匹配问题？

为何无法连接阿里云轻量应用服务器上 docker 中的 mysql ？

我想要可靠地升级网站，有没有标准的流程？或者需要注意的地方？

mysql 死锁问题？

vue3 vite打包部署后在非根路由下刷新报错?

为啥我的 Vue 项目在本地能正常显示图片，部署到服务器就不行了？

php根据相似度查找重复数据怎么实现？

你尚未登录，登录后可以

上面的sql通过login_time排序但是结果不对？

java开发发问URL匹配问题？

为何无法连接 阿里云轻量应用服务器上 docker 中的 mysql ？

我想要可靠地升级网站，有没有标准的流程？或者需要注意的地方？

mysql 死锁问题？

vue3 vite打包部署后 在非根路由下刷新 报错?

为啥我的 Vue 项目在本地能正常显示图片，部署到服务器就不行了？

为何无法连接阿里云轻量应用服务器上 docker 中的 mysql ？

vue3 vite打包部署后在非根路由下刷新报错?