【mysql】mysql删除重复记录并且只保留一条

【mysql】mysql删除重复记录并且只保留一条目录一、单个字段的操作分组介绍:1.查询全部重复的数据:2.删除全部重复试题:3.查询表中多余重复试题(根据depno来判断,除了rowid最小的一个)a.第一种方法:b.第二种方法:c.补充第三种方法(根据评论区给的删除总结出来的):4.删除表中多余重复试题并且只留1条:a.第一种方法:b.☆第二种方法(与上面查询的第二种方法对应,只…

大家好,又见面了,我是你们的朋友全栈君。

目录

一、单个字段的操作

分组介绍:

1. 查询全部重复的数据:

2. 删除全部重复试题:

3. 查询表中多余重复试题(根据depno来判断,除了rowid最小的一个)

a. 第一种方法:

b. 第二种方法:

c. 补充第三种方法(根据评论区给的删除总结出来的):

4. 删除表中多余重复试题并且只留1条:

a. 第一种方法:

b. ☆第二种方法(与上面查询的第二种方法对应,只是将select改为delete):

c. 补充第三种方法(评论区推荐的一种方法):

二、多个字段的操作:

总结:


最近在做题库系统,由于在题库中添加了重复的试题,所以需要查询出重复的试题,并且删除掉重复的试题只保留其中1条,以保证考试的时候抽不到重复的题。

首先写了一个小的例子:

一、单个字段的操作

这是数据库中的表:

【mysql】mysql删除重复记录并且只保留一条

分组介绍:

【mysql】mysql删除重复记录并且只保留一条

Select 重复字段 From 表 Group By 重复字段 Having Count(*)>1

查看是否有重复的数据:

GROUP BY <列名序列>

HAVING <组条件表达式>

查询出:根据dname分组,同时满足having字句中组条件表达式(重复次数大于1)的那些组

count(*)与count(1) 其实没有什么差别,用哪个都可以

count(*)与count(列名)的区别:

    count(*)将返回表格中所有存在的行的总数包括值为null的行,然而count(列名)将返回表格中除去null以外的所有行的总数(有默认值的列也会被计入)

1. 查询全部重复的数据:

【mysql】mysql删除重复记录并且只保留一条

Select * From 表 Where 重复字段 In (Select 重复字段 From 表 Group By 重复字段 Having Count(*)>1)

2. 删除全部重复试题:

将上面的查询select改为delete(这样会出错的)

DELETE
FROM
	dept
WHERE
	dname IN (
		SELECT
			dname
		FROM
			dept
		GROUP BY
			dname
		HAVING
			count(1) > 1
	)

会出现如下错误:[Err] 1093 – You can’t specify target table ‘dept’ for update in FROM clause

原因是:更新这个表的同时又查询了这个表,查询这个表的同时又去更新了这个表,可以理解为死锁。mysql不支持这种更新查询同一张表的操作

解决办法:把要更新的几列数据查询出来做为一个第三方表,然后筛选更新。

【mysql】mysql删除重复记录并且只保留一条

 

3. 查询表中多余重复试题(根据depno来判断,除了rowid最小的一个)

a. 第一种方法:

【mysql】mysql删除重复记录并且只保留一条

SELECT
	*
FROM
	dept
WHERE
	dname IN (
		SELECT
			dname
		FROM
			dept
		GROUP BY
			dname
		HAVING
			COUNT(1) > 1
	)
AND deptno NOT IN (
	SELECT
		MIN(deptno)
	FROM
		dept
	GROUP BY
		dname
	HAVING
		COUNT(1) > 1
)

上面这种写法正确,但是查询的速度太慢,可以试一下下面这种方法:

b. 第二种方法:

根据dname分组,查找出deptno最小的。然后再查找deptno不包含刚才查出来的。这样就查询出了所有的重复数据(除了deptno最小的那行)

SELECT *
FROM
	dept
WHERE
	deptno NOT IN (
		SELECT
			dt.minno
		FROM
			(
				SELECT
					MIN(deptno) AS minno
				FROM
					dept
				GROUP BY
					dname
			) dt
	)

c. 补充第三种方法(根据评论区给的删除总结出来的):

SELECT
	* 
FROM
	table_name AS ta 
WHERE
	ta.唯一键 <> ( SELECT max( tb.唯一键 ) FROM table_name AS tb WHERE ta.判断重复的列 = tb.判断重复的列 );

 

4. 删除表中多余重复试题并且只留1条:

a. 第一种方法:

DELETE
FROM
	dept
WHERE
	dname IN (
		SELECT
			t.dname
		FROM
			(
				SELECT
					dname
				FROM
					dept
				GROUP BY
					dname
				HAVING
					count(1) > 1
			) t
	)
AND deptno NOT IN (
SELECT
	dt.mindeptno
FROM
	(
		SELECT
			min(deptno) AS mindeptno
		FROM
			dept
		GROUP BY
			dname
		HAVING
			count(1) > 1
	) dt
)

b. ☆第二种方法(与上面查询的第二种方法对应,只是将select改为delete):

DELETE
FROM
	dept
WHERE
	deptno NOT IN (
		SELECT
			dt.minno
		FROM
			(
				SELECT
					MIN(deptno) AS minno
				FROM
					dept
				GROUP BY
					dname
			) dt
	)

c. 补充第三种方法(评论区推荐的一种方法):

DELETE 
FROM
	table_name AS ta 
WHERE
	ta.唯一键 <> (
SELECT
	t.maxid 
FROM
	( SELECT max( tb.唯一键 ) AS maxid FROM table_name AS tb WHERE ta.判断重复的列 = tb.判断重复的列 ) t 
	);

二、多个字段的操作:

单个字段的如果会了,多个字段也非常简单。就是将group by 的字段增加为你想要的即可。

此处只写一个,其他方法请仿照一个字段的写即可。

DELETE
FROM
	dept
WHERE
	(dname, db_source) IN (
		SELECT
			t.dname,
			t.db_source
		FROM
			(
				SELECT
					dname,
					db_source
				FROM
					dept
				GROUP BY
					dname,
					db_source
				HAVING
					count(1) > 1
			) t
	)
AND deptno NOT IN (
	SELECT
		dt.mindeptno
	FROM
		(
			SELECT
				min(deptno) AS mindeptno
			FROM
				dept
			GROUP BY
				dname,
				db_source
			HAVING
				count(1) > 1
		) dt
)

总结:

其实上面的方法还有很多需要优化的地方,如果数据量太大的话,执行起来很慢,可以考虑加优化一下:

  • 在经常查询的字段上加上索引
  • 将*改为你需要查询出来的字段,不要全部查询出来
  • 小表驱动大表用IN,大表驱动小表用EXISTS。IN适合的情况是外表数据量小的情况,而不是外表数据大的情况,因为IN会遍历外表的全部数据,假设a表100条,b表10000条那么遍历次数就是100*10000次,而exists则是执行100次去判断a表中的数据是否在b表中存在,它只执行了a.length次数。至于哪一个效率高是要看情况的,因为in是在内存中比较的,而exists则是进行数据库查询操作的

 

                                                                                            本人小菜一枚,有什么写的不妥的地方,欢迎大家指教!

                                                                                            我会不定期的看评论,也会根据大家的指点来修改博客不妥的地方!

                                                                                            各位读者有什么好的方法,或者想法欢迎评论区留言。。。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/152750.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月24日 上午7:16
下一篇 2022年6月24日 上午7:16


相关推荐

  • 泰勒级数展开

    泰勒级数展开1 1 雅各比矩阵 1 2 海森矩阵 1 3 变量为向量的泰勒级数展开

    2026年3月19日
    2
  • jmeter 中 Client implementation HttpClient4和java区别实践一

    jmeter 中 Client implementation HttpClient4和java区别实践一好吧,最近还是在折腾Jmeter,在一个post请求中,发现啃爹的竟然带有特殊字符:’怎么办,直接将数据写入,如下:然后在实际用post发请求时,jmeter自动给转义了,如下:xxxx=%27qq%27%3A%2720%27&rrr=%7Bqq%27  怎么办???那就加加转义字符试试,与是,加了”\”,“\\”,“\\\”,“\\\\”都…

    2022年7月22日
    14
  • OpenClaw v2026.2.1 一键部署+DeepSeek诊断,让Docker容器“开口说话”

    OpenClaw v2026.2.1 一键部署+DeepSeek诊断,让Docker容器“开口说话”

    2026年3月13日
    1
  • 六个可以永久收藏的网站

    六个可以永久收藏的网站1:Aconvertaconvert.com/cnAconvert是一个完全免费并且不限转换次数的多功能文件格式转换网站,转换效果非常出色。它的功能非常强大,支持转换的文件类型包括:PDF、文档、电子书、图像、视频、音频、压缩文件。它还支持将网页转换为PDF、JPG、PNG格式。其中PDF格式转换,不仅支持将Word、Excel、PPT、HTML、TXT、DWG、JPG、PNG、GIF和TIFF文件转换为PDF,也支持将PDF文件转换为Word、Excel

    2022年5月18日
    625
  • matlab行列式的转置_matlab行列式左右翻转

    matlab行列式的转置_matlab行列式左右翻转行列式转置,值不变>>a3=[6231;1215;5231;4121]a3=6231121552314121>&gt

    2022年8月5日
    9
  • WinForm–CheckedListBox数据绑定

    WinForm–CheckedListBox数据绑定虽然点的时候没有提示 但是 CheckedListB 也是支持像 ComboBox 一样的数据绑定的 nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp cblBtn DataSource dt nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp cblBtn DisplayMembe AAA nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp cblBtn ValueMember BBB 不过在取这些值的时候稍有不同 不能直接通过 Item

    2026年3月19日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号