哈希函数和哈希表

哈希函数和哈希表哈希函数和哈希表 1 什么是哈希函数它是一种映射关系 它可以把任意长度的输入映射到任意一个固定长度的整数值 也称为散列函数 其值是十六进制的数 说白了 哈希函数就是用来将 key value 结构中关键字值转换为数组的下标的函数 一般都是通过取模 而且这样子在数据量很大的情况下一般是均匀分布的 然后将该结构存放到数组中去 然后这个数组就叫做哈希表 这个固定长度不是说所有长度的输入获取到的整数

哈希函数和哈希表

1. 什么是哈希函数

它是一种映射关系,它可以把任意长度的输入映射到任意一个固定长度的整数值,也称为散列函数,其值是十六进制的数。

说白了,哈希函数就是用来将key-value结构中关键字值转换为数组的下标的函数(一般都是通过取模,而且这样子在数据量很大的情况下一般是均匀分布的),然后将该结构存放到数组中去,然后这个数组就叫做哈希表.

这个固定长度不是说所有长度的输入获取到的整数永远是一个长度,我觉得有两种理解:

  1. 它是说比如String str = "abc"和String str1 = "def",那它俩这种同一类型的且长度相同的获取到的是整数的位数是一般一样的;
  2. 比如说String str= "abc",当你输入参数固定的情况下,你不管运行多少回,这个字符串的哈希值是一定的,即输入一样,输出一定一样;
  3. 当然这里有个特殊的东西:那就是比如说String str = new String("abc"),这个你重复运行后生成的哈希值是不一样的,因为每次重复运行生成的都是一个新的对象.

这个你可以用hashCode()方法测试,你输入多个长度相同的string类型的字符串,看看输出的是不是都是十六进制的相同长度的整数就可以了.

特殊情况: 由于输入域是无穷的,但是输出域范围是有限的(它是16位的,每个位置都有16个数,一共只有16^16个数,即范围为 – 2^64 ~ 2^64-1),所以一定会出现不同的输入域但是得到了同一个输出,这就叫哈希冲突.

2. 什么是哈希表

哈希表(hash table,也叫散列表)是根据关键码值(Key value中的key)而直接进行访问的数据结构,也就是说: 哈希表基于数组,其中每个单元都是类似于key-value的存储形式关键字值通过哈希函数映射为数组的下标,如果一个关键字哈希化(将关键字转换为数组下标的过程)后映射到一个已占用的数组单元,这种情况就是上面的哈希冲突。

3. 如何解决哈希冲突

  1. 开发地址法:

开放地址法的思路就是: 通过系统的方法找到数组的一个空位,并把这个元素填进去,就不再用哈希函数获得的数组下标,它有三种方法:

  1. 线性探测
    线性探测的思路: 它会线性的查找空白单元.
    比如说5421是哈希函数计算出来的下标,但是它已经被占用了,那它就去使用5422,如果5422也被使用了,那它就去使用5423,以此类推,它的数组下标会一直递增,知道找到空白的位置.
    但是这会有一个问题: 那就是当哈希表太满的时候,我们每插入一个数据,都要频繁的探测插入位置,因为可能很多位置都被前面插入的数据占用了,这就称为聚集


  2. 二次探测(解决聚集)
    二次探测的思想: 探测相距较远的单元,而不是和原始位置相邻的单元.
    比如说: 如果哈希函数计算的原始下标是x,线性探测就是x+1,x+2,x+3这样子类推下去,而在二次探测中,探测的过程是x+1, x+4,x+9,x+16这样子,到原始位置的距离是步数的平方.这样子可以很好的解决线性探测带来的聚集问题.
    但是这会产生一个新的问题:这个问题叫做二次聚集,比如说184,552,336,753依次插入表中,他们通过哈希函数计算出来的下标都是7,按照上面的规律,552就放在8,336需要放在11,753需要放在17这样子,后面再有要放在下标为7的元素的话,它就要往后面移动更长的距离.


  3. 再哈希法(解决二次聚集)
    由于二次聚集的原因是因为每次移动的长度有规律的:1,4,9,16,25这样子,那么解决方法就是找到一种依赖于关键字的探测序列,那么就可以做到每个关键字移动的方法就都不一样了,即把关键字通过不同的哈希函数再做一遍哈希化,用这个结果作为步长,每次移动步长个距离,虽然步长对于每个关键字来说是一定的,但是不同关键字的步长是不一样的.
    为了实现想要的效果,第二个哈希函数必须有以下几个特点:
    1. 和第一个哈希函数不能相同.
    2. 不能输出0,输出0就永远在原地踏步,就死循环了.



2.链地址法:

链地址法的思路: 把哈希表每个单元中的存储方式都设置为链表,某个数据项的关键字值还是像之前一样通过哈希函数映射到哈希表,但是这个数据插入到哈希表指定下标单元的链表中,当有其他元素映射到同一个单元的时候,就往链表后面挂就可以了.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/233720.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • http 400报错

    http 400报错http400报错—springmvc相关:1.使用了json入参,传递给了对象,如果对象里的属性,如这里的Bonus是int类型,你传入了非int类型,这里就会报4002.使用了@RequestBody,然而信息头ContentType是非application/json,如:application/x-www-form-urlencoded,也会报400转载于:https:…

    2022年6月11日
    44
  • docker容器启动参数[通俗易懂]

    dockerrun[option]镜像名[向启动容器中传入的命令]常用可选参数说明:-i表示以“交互模式”运行容器-t表示容器启动后会进入其命令行。加入这两个参数后,容器创建就能登录进去。即分配一个伪终端。–name为创建的容器命名-v表示目录映射关系(前者是宿主机目录,后者是映射到宿主机上的目录,即宿主机目录:容器中目录),可以使用多个-v做…

    2022年4月14日
    417
  • 3D实例分割「建议收藏」

    3D实例分割「建议收藏」13D实例分割-云+社区-腾讯云2提出“3D-BoNet”,比3D点云实例分割算法快10倍!

    2022年8月23日
    3
  • js正则使用变量_正则表达式中可以拼接变量吗

    js正则使用变量_正则表达式中可以拼接变量吗javascript正则变量evalRegExp

    2022年9月16日
    0
  • 数据库(SQL)面试题,基础知识(超全面)[通俗易懂]

    数据库(SQL)面试题,基础知识(超全面)[通俗易懂]什么是存储过程?有哪些优缺点?存储过程就像我们编程语言中的函数一样,封装了我们的代码(PLSQL、T-SQL)存储过程的优点能够将代码封装起来 保存在数据库之中 让编程语言进行调用 存储过程是一个预编译的代码块,执行效率比较高 一个存储过程替代大量T_SQL语句,可以降低网络通信量,提高通信速率存储过程的缺点:每个数据库的存储过程语法几乎都不一样,十分难以维护(不…

    2022年8月28日
    1
  • java锁cas(java锁的实现原理)

    一、Java锁1.常见的锁有synchronized和Lock()①synchronized是jvm层面实现的,可以直接用,不过要锁住某个对象;lock是属于j.u.c包下的接口,用的时候要实现lock接口。②synchronized一般和wait()、notify()、notifyAll()一起使用,使用完不用释放锁;lock必须在finally里面手动释放。@lock锁与s…

    2022年4月15日
    47

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号