MySQL数据表合并去重
场景:
爬取的数据生成数据表,结构与另一个主表相同,需要进行合并+去重
解决:(直接举例)
-
首先创建两个表pep,pep2,其中pep是主表
CREATE TABLE IF NOT EXISTS `pep/pep2`( `id` INT UNSIGNED AUTO_INCREMENT, `no` VARCHAR(100) NOT NULL, PRIMARY KEY ( `id` ) )ENGINE=InnoDB DEFAULT CHARSET=utf8;
-
然后向pep中插入两条数据,pep2中插入一条与pep中相同的一条数据
insert into pep(no) values('abc'); insert into pep(no) values('caa'); insert into pep2(no) values('abc');
-
将pep2的数据插入pep中
insert into pep (no) select no from pep2;
-
分组去重创建新的临时表tmp
create table tmp select id,no from pep group by no;
注意:创建完这个表的id字段类型已经不是主键自增
可能也会报错 ```Syntax error or access violation: 1055 Expression #1 of SELECT list is not in GROUP BY clause and contains nonaggregated column 'XXX.Y.ZZZZ' which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_mode=only_full_group_by ``` 解决:执行以下两个命令: ``` mysql> set global sql_mode='STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION'; mysql> set session sql_mode='STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION'; ```
-
删除pep表,并将tmp表重命名为pep
drop table pep; alter table tmp rename to pep;
-
查看desc结构和select * from pep发现id的字段类型变了,这里需要改回原来的类型;
alter table pep add primary key (id); alter table pep modify id int auto_increment;
还有可以使用join来做去重,更快的还可以添加一个字段(可以是几个字段+起来的的md5值),给这个字段创建一个唯一索引unique,以后插入数据的时候,自动回过滤掉重复的数据。
Python平凡之路
Python学习的记录分享,欢迎大家批评指正。 走弯路让你见识更广,走直路让时复更低。
推荐阅读
MySQL常用语法命令及函数
创建数据库 create database 数据库名; 查看数据库 show databases; 选择数据库 use 数据库名; 删除数据库 drop database 数据库名; 创建表 create table 表名(属性名1 数据类型 ,属性名2 数据类型。。。。); 查...
Alei_杨磊阅读 1.7k
初学后端,如何做好表结构设计?
这篇文章介绍了设计数据库表结构应该考虑的4个方面,还有优雅设计的6个原则,举了一个例子分享了我的设计思路,为了提高性能我们也要从多方面考虑缓存问题。
王中阳Go赞 4阅读 1.7k评论 2
Vue+Express+Mysql全栈项目之增删改查、分页排序导出表格功能
本文记录一下实现一个全栈项目,前端使用vue框架、后端使用express框架、数据库使用mysql。此项目的意义不仅仅有助于我们复习nodejs相关知识、更有助于带前端新人,使其快速从整体全局角度中,理解常规后台管理系...
水冗水孚赞 4阅读 2.6k
MySQL百万数据深度分页优化思路分析
一般在项目开发中会有很多的统计数据需要进行上报分析,一般在分析过后会在后台展示出来给运营和产品进行分页查看,最常见的一种就是根据日期进行筛选。这种统计数据随着时间的推移数据量会慢慢的变大,达到百万...
一个程序员的成长赞 7阅读 868
深入理解MySQL索引底层数据结构
在日常工作中,我们会遇见一些慢SQL,在分析这些慢SQL时,我们通常会看下SQL的执行计划,验证SQL执行过程中有没有走索引。通常我们会调整一些查询条件,增加必要的索引,SQL执行效率就会提升几个数量级。我们有没...
京东云开发者赞 3阅读 571
Laravel入门及实践,快速上手ThinkSNS+二次开发
【摘要】自从ThinkSNS+不使用ThinkPHP框架而使用Laravel框架之后,很多人都说技术门槛抬高了,其实你与TS+的距离仅仅只是学习一个新框架而已,所以,我们今天来说说Laravel的入门。
ThinkSNS赞 1阅读 2.4k
一文了解MySQL中的多版本并发控制
作者:京东零售 李泽阳最近在阅读《认知觉醒》这本书,里面有句话非常打动我:通过自己的语言,用最简单的话把一件事情讲清楚,最好让外行人也能听懂。也许这就是大道至简,只是我们习惯了烦琐和复杂。希望借助...
京东云开发者赞 2阅读 495
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。