一文搞懂MySQL前缀索引

全栈程序员-站长 • 2022年5月15日下午4:00 • 未分类 • 阅读 52

一文搞懂MySQL前缀索引引入通常在开发中我们需要定义字符串类型的字段，例如用户名或者用户邮箱等。假设我们在维护一个用户登录系统，用户表的定义：createtableUser(IDbigintunsignedprimarykey,emailvarchar(64))engine=Innodb;如果使用邮箱登录的话，查询语句可能这样写：selectIDfromUserwhereemail=’xxx’;如果email字段没有加索引，那么这个语句只能做全表扫描。前缀索引MySQL是支持

大家好，又见面了，我是你们的朋友全栈君。

引入

通常在开发中我们需要定义字符串类型的字段，例如用户名或者用户邮箱等。
假设我们在维护一个用户登录系统，用户表的定义：


create table User(
ID bigint unsigned primary key,
email varchar(64)

)engine=Innodb;

如果使用邮箱登录的话，查询语句可能这样写：

select ID  from User where email='xxx';

如果email字段没有加索引，那么这个语句只能做全表扫描。

前缀索引

MySQL是支持前缀索引的，也就是说，你可以定义字符串的一部分作为索引。如果不指定前缀索引，那么索引就是整个字符串。

例子：

alter table User add index index1(email);
alter table User add index index2(email(6));

第一句SQL创建的索引就是将email整个字符串作为索引；第二个SQL语句创建的索引，只取email字符串的前6个字节作为索引。

存储过程中的具体区别如下图所示

在这里插入图片描述

在这里插入图片描述

显然可以从图中知道，email(6)这个索引结构中每个邮箱字段只取前6个字节，所以占用的空间更少，这就是使用前缀索引的优势。

缺点：
可能会额外的增加记录扫描的次数。

这个该怎么理解呢？

select id,name,email from User where email =' zhangsan@xx.com';

使用的是将整个字符串作为索引结构。
过程如下：

从index1索引树上找到索引值是”zhangsan@xx.com”的这条记录，去的ID2的值
到主键中查ID2的这一行，判断email的值是否是正确的，将这行记录装入结果集中；
再回到index1这个索引树上，继续判断下一条记录，发现不满足where条件，结束循环。

这个过程中只需要从主键索引树上查找一次数据，系统自认为扫描了一行。

使用前缀索引的执行过程

从index2的索引树上，找到满足索引值是“zhangs”的记录，找到第一个是ID1；
到主键索引树上查到ID1这一行，判断email的值满不满足where后的条件，不满足这一行丢弃。
继续回到index2这个索引树上查下一条记录，发现如果还是”zhangs”，取出ID2，再回到ID2索引树上进行判断，如果值正确，将结果返回结果集中。
重复执行以上流程，直到从index2索引树上取出的数据不是“zhangs”,循环结束。

通过以上执行流程的分析你就可以知道，前缀索引会导致扫描的行数变多，这和你所指定前缀的长度有关。或许email(7)中的区分度就比email(6)高，就不会扫描那么多行。

也即是说使用前缀索引，定义好长度，就可以节省空间又不用额外增加太多的查询成本

那怎样定义前缀索引长度比较好呢？

实际上，建立索引时关注的是区分度，区分度越高，越能体现索引的价值和他的优势。因此我们可以通过统计索引上有不同的值来判断要使用多长的前缀。

select count(distinct email) as L from User;

前缀索引对覆盖索引的影响

前面我们说了使用前缀索引可能会增加扫描行数，这会影响性能。其实前缀索引的影响不止如此：

select id ,email from User where email='zhangsan@xx.com';
select id , name, email from User where email='zhangsan@xx.com';

第一句SQL相比于第二条SQL，只返回了id和email。如果使用email整个字符串作为索引的话，可以利用覆盖索引，从index1查到结果直接返回，不需要回表。但是如果使用前缀索引的话，是需要回表进行判断的。

倒序存储与Hash存储

在选取索引的时候，我们需要明白：索引选取的越长，占用的磁盘空间就越大，相同的数据页能放下的索引值就越小，搜索的效率也就会越低。

如果我们在区分度不是很高的场景下，前缀索引的效果就不明显了，我们该如何才去措施提高查询效率。

采用倒序存储方式

select filed_list from t where id_card = reverse('input_id_card')

因为字符串正序的区分度不够明显所以可以看看如果采用倒序的话情况如何，如果倒序的区分度更高，可以采用这种方式。

采用Hash字段

alter table t add id_card_crc int unsigned,add index(id_card_crc);

这里在表t中多加入了一个字段 id_card_crc并把它作为索引。
然后每次插入新纪录的时候，都用crc32函数得到校验码填充到这个新字段中。由于产生的校验码也有可能冲突（相同）所以查询条件部分需要判断id_card的值是否相同。


select field_list from t
where id_card_crc=crc32('input_id_card_string')
and 
id_card='input_id_card_string'

两者的对比

相同点

都不支持范围查询，只能等值查询。
不同点
从查询效率上看，使用的hash字段方式的查询性能相对稳定一点，因为crc_32算出的值虽然有可能冲突，但是概率还是很小的。而倒序方式其实还是用的前缀索引的方式还会增加扫描行数。
从存储空间上看，倒序存储不会在主键上消耗额外的空间，但hash字段需要增加一个新字段。
从CPU消耗来讲，倒序每次写和读的时候都需要调用reverse函数；hash字段的方式需要嗲用crc32函数。从函数的复杂度讲，reverse效率更高一些。

总结

在向字符串类型的字段加索引的时候，需要考虑前缀索引是否合适，实在不行再加全字段索引。

全字段索引相比于前缀索引占用的空间多些。
创建前缀索引节省空间，但是会增加查询的扫描行数，并且加了之后不能使用覆盖索引。
倒序存储是基于前缀索引的改良版，用于字符串本身区分度不高的情况下。
创建hash字段索引，查询稳定但需增加一个额外的字段。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/146238.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

给在读研究生&未来要读研同学们的一封受益匪浅的信

上一篇 2022年5月15日下午4:00

苹果电脑python官网下载步骤-Python下载和安装图文教程[超详细]

下一篇 2022年5月15日下午4:00

word文档页码不连续编号怎么办_怎样给论文加页码

word文档页码不连续编号怎么办_怎样给论文加页码论文页码设置大家好！今天和大家分享两个和页码有关的技巧：大家好！今天和大家分享两个和页码有关的技巧：为分栏页面分别设置页码对纵向文档中的横向表格设置页码page域及域代码操作基础技巧01分栏页面像下面这个文档，对页面分成了两栏，如果现在想给每一栏都添加一个页码序号，也就是在第1页的左右两栏分别显示第1页和第2页，在第2页的左右两栏分别显示第3页和第4页，这样的效果该如何设置呢？我们先在页脚中设置好…

全栈程序员-站长
2025年7月29日
4
neokylin 系统_kdesk core service

neokylin 系统_kdesk core service目录结构a) 文件和目录被组织成一个单根倒置的树状结构b) 文件系统从根目录下开始,用”/”表示c) 根文件系统(rootfs):rootfilesystemd) 文件名区分大小写(Windows中的文件系统不区分大小写)e) 以.开头的文件是隐藏文件f) 文件有两类数据i. 元数据:metadata用户描述文件本身的信息,也就是文件属性ii. 数据:data就是文件中存放的内容文件类型a) 蓝色表示目录d开头b) 黄色表示设备文件b开头:块设备c开头..

全栈程序员-站长
2022年8月10日
8
编程,向内存0:200~0:23F依次传送数据_写出汇编语言中mov和add指令格式

编程,向内存0:200~0:23F依次传送数据_写出汇编语言中mov和add指令格式题目要求向内存0:200~0:23f依次传送数据0~63(3fh)分析0:200~0:23f也就是0000:0200~00000:023f运行结果代码;向内存0:200~0:23f依次传送数据0~63(3fh);分析0000:0200~00000:023f;assumecs:codecodesegment movax,0h movds,ax movbx…

全栈程序员-站长
2026年2月1日
5
全栈程序员

360回应“龙虾”安全争议，筑牢AI智能体安全底座

360回应“龙虾”安全争议，筑牢AI智能体安全底座

全栈程序员-站长
2026年3月14日
2
document.all用法「建议收藏」

document.all用法「建议收藏」document.all用法第一：document.all是页面内所有元素的一个集合。例如：document.all(0)表示页面内第一个元素第二：document.all可以判断浏览器是否

全栈程序员-站长
2022年7月4日
21
Nginx 502 Bad Gateway 的错误的解决方案

Nginx 502 Bad Gateway 的错误的解决方案我用的是nginx反向代理Apache，直接用Apache不会有任何问题，加上nginx就会有部分ajax请求502的错误，下面是我收集到的解决方案。一、fastcgi缓冲区设置过小出现错误，首先要查找nginx的日志文件，目录为/var/log/nginx，在日志中发现了如下错误2013/01/1713:33:47[error]15421#0:*16upstr…

全栈程序员-站长
2022年6月26日
28

发表回复

关注全栈程序员社区公众号