哈希函数和哈希表

哈希函数和哈希表哈希函数和哈希表 1 什么是哈希函数它是一种映射关系 它可以把任意长度的输入映射到任意一个固定长度的整数值 也称为散列函数 其值是十六进制的数 说白了 哈希函数就是用来将 key value 结构中关键字值转换为数组的下标的函数 一般都是通过取模 而且这样子在数据量很大的情况下一般是均匀分布的 然后将该结构存放到数组中去 然后这个数组就叫做哈希表 这个固定长度不是说所有长度的输入获取到的整数

哈希函数和哈希表

1. 什么是哈希函数

它是一种映射关系,它可以把任意长度的输入映射到任意一个固定长度的整数值,也称为散列函数,其值是十六进制的数。

说白了,哈希函数就是用来将key-value结构中关键字值转换为数组的下标的函数(一般都是通过取模,而且这样子在数据量很大的情况下一般是均匀分布的),然后将该结构存放到数组中去,然后这个数组就叫做哈希表.

这个固定长度不是说所有长度的输入获取到的整数永远是一个长度,我觉得有两种理解:

  1. 它是说比如String str = "abc"和String str1 = "def",那它俩这种同一类型的且长度相同的获取到的是整数的位数是一般一样的;
  2. 比如说String str= "abc",当你输入参数固定的情况下,你不管运行多少回,这个字符串的哈希值是一定的,即输入一样,输出一定一样;
  3. 当然这里有个特殊的东西:那就是比如说String str = new String("abc"),这个你重复运行后生成的哈希值是不一样的,因为每次重复运行生成的都是一个新的对象.

这个你可以用hashCode()方法测试,你输入多个长度相同的string类型的字符串,看看输出的是不是都是十六进制的相同长度的整数就可以了.

特殊情况: 由于输入域是无穷的,但是输出域范围是有限的(它是16位的,每个位置都有16个数,一共只有16^16个数,即范围为 – 2^64 ~ 2^64-1),所以一定会出现不同的输入域但是得到了同一个输出,这就叫哈希冲突.

2. 什么是哈希表

哈希表(hash table,也叫散列表)是根据关键码值(Key value中的key)而直接进行访问的数据结构,也就是说: 哈希表基于数组,其中每个单元都是类似于key-value的存储形式关键字值通过哈希函数映射为数组的下标,如果一个关键字哈希化(将关键字转换为数组下标的过程)后映射到一个已占用的数组单元,这种情况就是上面的哈希冲突。

3. 如何解决哈希冲突

  1. 开发地址法:

开放地址法的思路就是: 通过系统的方法找到数组的一个空位,并把这个元素填进去,就不再用哈希函数获得的数组下标,它有三种方法:

  1. 线性探测
    线性探测的思路: 它会线性的查找空白单元.
    比如说5421是哈希函数计算出来的下标,但是它已经被占用了,那它就去使用5422,如果5422也被使用了,那它就去使用5423,以此类推,它的数组下标会一直递增,知道找到空白的位置.
    但是这会有一个问题: 那就是当哈希表太满的时候,我们每插入一个数据,都要频繁的探测插入位置,因为可能很多位置都被前面插入的数据占用了,这就称为聚集


  2. 二次探测(解决聚集)
    二次探测的思想: 探测相距较远的单元,而不是和原始位置相邻的单元.
    比如说: 如果哈希函数计算的原始下标是x,线性探测就是x+1,x+2,x+3这样子类推下去,而在二次探测中,探测的过程是x+1, x+4,x+9,x+16这样子,到原始位置的距离是步数的平方.这样子可以很好的解决线性探测带来的聚集问题.
    但是这会产生一个新的问题:这个问题叫做二次聚集,比如说184,552,336,753依次插入表中,他们通过哈希函数计算出来的下标都是7,按照上面的规律,552就放在8,336需要放在11,753需要放在17这样子,后面再有要放在下标为7的元素的话,它就要往后面移动更长的距离.


  3. 再哈希法(解决二次聚集)
    由于二次聚集的原因是因为每次移动的长度有规律的:1,4,9,16,25这样子,那么解决方法就是找到一种依赖于关键字的探测序列,那么就可以做到每个关键字移动的方法就都不一样了,即把关键字通过不同的哈希函数再做一遍哈希化,用这个结果作为步长,每次移动步长个距离,虽然步长对于每个关键字来说是一定的,但是不同关键字的步长是不一样的.
    为了实现想要的效果,第二个哈希函数必须有以下几个特点:
    1. 和第一个哈希函数不能相同.
    2. 不能输出0,输出0就永远在原地踏步,就死循环了.



2.链地址法:

链地址法的思路: 把哈希表每个单元中的存储方式都设置为链表,某个数据项的关键字值还是像之前一样通过哈希函数映射到哈希表,但是这个数据插入到哈希表指定下标单元的链表中,当有其他元素映射到同一个单元的时候,就往链表后面挂就可以了.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/233720.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • pycharm2019.3.3激活教程_pycharm2020.2激活码

    pycharm2019.3.3激活教程_pycharm2020.2激活码下载官网下载2019.03最新版http://www.jetbrains.com/pycharm/download/download-thanks.html?platform=windows安装一路点击下一步,安装目录建议放在非C盘位置激活方式1:激活码第一次打开时,激活方式选择激活码。复制粘贴下面一整行,点击激活即可。有效期是2019年11月份,到时候会更新新的激活码。这种方式…

    2022年8月25日
    7
  • 查看python版本多少位的「建议收藏」

    查看python版本多少位的「建议收藏」正常我们在cmd终端输入python之后,如果有安装python,就会在回车之后出来关于你安装的python版本信息,几版本,多少位的,但是还有一种,像我这样只显示了python版本是3.7.5,并没

    2022年7月6日
    44
  • 数据结构 图的遍历

    数据结构 图的遍历图的遍历分为深度优先遍历(Depth_First_Search)和广度优先遍历(Breadth_First_Search),分别简称为DFS和BFS。图的遍历是从某一个顶点出发,访问其他顶点,但是不能重复访问(每个顶点只能访问一次)。深度优先遍历(DFS):深度优先,就是沿着某一个方向不重复的一直便利下去,若走到尽头,退到上一个顶点,寻找附近有没有顶点,有且不重复的话,接着便利,否则退到上一个顶点…

    2022年4月30日
    34
  • html网页设计作业成品(用css和div制作网站)

    话不多说,直接上效果图:历史介绍行政区划:地理环境著名景点:美食小吃工艺品联系我们部分项目结构老师要求的十几个页面20几张图片以及一些跳转,使用div+css布局也基本上都有了。然后代码也有注释。也能够容易看得懂部分代码偷个懒,就用notepad打开。不用H-build打开了。哈哈哈另外有同学要是需要源码的话可以联系我呀。大家加油!奥利给!…

    2022年4月11日
    94
  • 深入理解Java虚拟机05–虚拟机类加载机制「建议收藏」

    深入理解Java虚拟机05–虚拟机类加载机制「建议收藏」深入理解Java虚拟机05–虚拟机类加载机制

    2022年4月20日
    72
  • JQuery时间戳与时间字符串的转换「建议收藏」

    JQuery时间戳与时间字符串的转换「建议收藏」JS时间戳转字符串:varformatlistdate=function(time){vardate=newDate(time);vary=date.getFullYear();varm=date.getMonth()+1;vard=date.getDate();varhour=date.get…

    2022年5月23日
    73

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号