mysql DISTINCT 的实现与优化

mysql DISTINCT 的实现与优化

DISTINCT实际上和GROUP BY的操作非常相似,只不过是在GROUP BY之后的每组中只取出一条记录而已。所以,DISTINCT的实现和GROUP BY的实现也基本差不多,没有太大的区别。同样可以通过松散索引扫描或者是紧凑索引扫描来实现,当然,在无法仅仅使用索引即能完成DISTINCT的时候,MySQL只能通过临时表来完成。但是,和GROUP BY有一点差别的是,DISTINCT并不需要进行排序。也就是说,在仅仅只是DISTINCT操作的Query如果无法仅仅利用索引完成操作的时候,MySQL会利用临时表来做一次数据的缓存,但是不会对临时表中的数据进行filesort操作。当然,如果我们在进行DISTINCT的时候还使用了GROUP BY并进行了分组,并使用了类似于MAX之类的聚合函数操作,就无法避免filesort了。

下面我们就通过几个简单的Query示例来展示一下DISTINCT的实现。

 

1.首先看看通过松散索引扫描完成DISTINCT的操作:

sky@localhost:  example 11:03:41>EXPLAIN SELECT  DISTINCT group_id

->  FROM group_message\G

***************************1row  ***************************

id1SELECT_type:SIMPLE

table:group_message

type:range

possible_keys:NULL

key:  idx_gid_uid_gc

key_len:4ref:  NULL

rows:10Extra: Using index for  group-by

1  row  in  set  (0.00sec)

 

我们可以很清晰的看到,执行计划中的Extra信息为Usingindex for group-by,这代表什么意思?为什么我没有进行GROUP BY操作的时候,执行计划中会告诉我这里通过索引进行了GROUP BY呢?其实这就是于DISTINCT的实现原理相关的,在实现DISTINCT的过程中,同样也是需要分组的,然后再从每组数据中取出一条返回给客户端。而这里的Extra信息就告诉我们,MySQL利用松散索引扫描就完成了整个操作。当然,如果MySQLQuery Optimizer要是能够做的再人性化一点将这里的信息换成Using index for distinct那就更好更容易让人理解了,呵呵。

 

2.  我们再来看看通过紧凑索引扫描的示例:

sky@localhost: example 11:03:53> EXPLAIN SELECT DISTINCT user_id

->FROM group_message

->WHERE group_id = 2\G

***************************1. row ***************************

id:1SELECT_type: SIMPLE

table:group_message

type:ref

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4ref: const

rows:4Extra: Using WHERE; Using index

1row in set (0.00 sec)

这里的显示和通过紧凑索引扫描实现GROUP BY也完全一样。实际上,这个Query的实现过程中,MySQL会让存储引擎扫描group_id=2的所有索引键,得出所有的user_id,然后利用索引的已排序特性,每更换一个user_id的索引键值的时候保留一条信息,即可在扫描完所有gruop_id=2的索引键的时候完成整个DISTINCT操作。

3.下面我们在看看无法单独使用索引即可完成DISTINCT的时候会是怎样:

sky@localhost: example 11:04:40> EXPLAIN SELECT DISTINCT user_id

->FROM group_message

->WHERE group_id > 1 AND group_id < 10\G

***************************1. row ***************************

id:1SELECT_type: SIMPLE

table:group_message

type:range

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4ref: NULL

rows:32Extra: Using WHERE; Using index; Using temporary

1row in set (0.00 sec)

MySQL无法仅仅依赖索引即可完成DISTINCT操作的时候,就不得不使用临时表来进行相应的操作了。但是我们可以看到,在MySQL利用临时表来完成DISTINCT的时候,和处理GROUP BY有一点区别,就是少了filesort。实际上,在MySQL的分组算法中,并不一定非要排序才能完成分组操作的,这一点在上面的GROUP BY优化小技巧中我已经提到过了。实际上这里MySQL正是在没有排序的情况下实现分组最后完成DISTINCT操作的,所以少了filesort这个排序操作。

4.最后再和GROUP BY结合试试看:

sky@localhost: example 11:05:06> EXPLAIN SELECT DISTINCT max(user_id)

->FROM group_message

->WHERE group_id > 1 AND group_id < 10

->GROUP BY group_id\G

***************************1. row ***************************

id:1SELECT_type: SIMPLE

table:group_message

type:range

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4ref: NULL

rows:32Extra: Using WHERE; Using index; Using temporary; Usingfilesort

1row in set (0.00 sec)

最后我们再看一下这个和GROUP BY一起使用带有聚合函数的示例,和上面第三个示例相比,可以看到已经多了filesort排序操作了,因为我们使用了MAX函数的缘故。

对于DISTINCT的优化,和GROUP BY基本上一致的思路,关键在于利用好索引,在无法利用索引的时候,确保尽量不要在大结果集上面进行DISTINCT操作,磁盘上面的IO操作和内存中的IO操作性能完全不是一个数量级的差距。

转载于:https://www.cnblogs.com/xiaowangba/p/6314173.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/109842.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • matlab 汽车振动,matlab在汽车振动分析

    matlab 汽车振动,matlab在汽车振动分析matlab在汽车振动分析Matlab在振动分析中的应用刘迪辉2011-10-20大家学了游泳理论,现在我们借助MATLAB软件,来练习一下游泳!实际问题:客车的振动分析•客车样车路试过程中却出现了令人意想不到的一系列振动问题,主要表现为:(1)汽车起动时发动机抖动厉害;(2)当车速在40km/h左右时,整车有共振现象;(3)当车速在85km/h左右时,…

    2022年10月16日
    1
  • 并查集union操作_数据库递归查询语句

    并查集union操作_数据库递归查询语句本文主要介绍解决动态连通性一类问题的一种算法,使用到了一种叫做并查集的数据结构,称为Union-Find。更多的信息可以参考Algorithms 一书的Section1.5,实际上本文也就是基于它的一篇读后感吧。原文中更多的是给出一些结论,我尝试给出一些思路上的过程,即为什么要使用这个方法,而不是别的什么方法。我觉得这个可能更加有意义一些,相比于记下一些结论。

    2025年8月7日
    3
  • 07 技术扩展-软件工程Server服务器知识点[通俗易懂]

    07 技术扩展-软件工程Server服务器知识点[通俗易懂]Web项目中的服务器一、Server概述为客户端提供各种服务的功能强大的计算机二、访问服务器服务器的地址—-域名/IP地址对应服务端口服务所用协议—-http/httpshttps://www.baidu.com:80/协议://域名:端口号/三、访问本地服务安装node.jsDOS命令窗口cddesktop/indexDOS命令…

    2025年9月18日
    4
  • 第十三周(动物这样叫)[通俗易懂]

    第十三周(动物这样叫)

    2022年2月7日
    46
  • 计算机网络基础(路由器的作用 MAC地址 IP地址 IP地址分类 子网掩码 网段,等长子网划分)

    计算机网络基础(路由器的作用 MAC地址 IP地址 IP地址分类 子网掩码 网段,等长子网划分)前言在上一篇我们聊到了简单的了解到了计算机的通信方式,并且都是处于同一个网段下的通信,简要理解(大局观)计算机之间的通信方式【同一网段】(直接相连,同轴电缆,集线器,网桥,交换机),今天我们聊聊路由器和MAC地址IP地址的基础知识文章目录前言计算机之间连接方式—路由器连接MAC地址IP地址IP地址的分类计算机之间连接方式—路由器连接我们知道如果全世界都用交换机连接网络的话,会导致广播风暴,即,当在由交换机连接网络的时候,两台计算机通信,首先会发ARP广播得到对方的MAC地址,于此同时交换机就会记

    2022年5月5日
    64
  • 如何用python制作3d游戏_【教程】12个步骤让你快速学会制作3D游戏

    如何用python制作3d游戏_【教程】12个步骤让你快速学会制作3D游戏原标题:【教程】12个步骤让你快速学会制作3D游戏Unity3D不仅是一款功能强大且易于上手的游戏引擎,更重要的是,它还可以被免费下载(它还有一个功能更强大的付费版,但其实你可以使用免费版本完成绝大部分工作)。你大可不必被它的名字误导,Unity既可以创建2d游戏也可以创建3d游戏。你可以使用C#,Java,或者一种和Python类似的称为Boo的语言进行编程。在本教程中,我将带你熟悉Un…

    2022年5月30日
    359

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号