哈希函数和哈希表

哈希函数和哈希表哈希函数和哈希表 1 什么是哈希函数它是一种映射关系 它可以把任意长度的输入映射到任意一个固定长度的整数值 也称为散列函数 其值是十六进制的数 说白了 哈希函数就是用来将 key value 结构中关键字值转换为数组的下标的函数 一般都是通过取模 而且这样子在数据量很大的情况下一般是均匀分布的 然后将该结构存放到数组中去 然后这个数组就叫做哈希表 这个固定长度不是说所有长度的输入获取到的整数

哈希函数和哈希表

1. 什么是哈希函数

它是一种映射关系,它可以把任意长度的输入映射到任意一个固定长度的整数值,也称为散列函数,其值是十六进制的数。

说白了,哈希函数就是用来将key-value结构中关键字值转换为数组的下标的函数(一般都是通过取模,而且这样子在数据量很大的情况下一般是均匀分布的),然后将该结构存放到数组中去,然后这个数组就叫做哈希表.

这个固定长度不是说所有长度的输入获取到的整数永远是一个长度,我觉得有两种理解:

  1. 它是说比如String str = "abc"和String str1 = "def",那它俩这种同一类型的且长度相同的获取到的是整数的位数是一般一样的;
  2. 比如说String str= "abc",当你输入参数固定的情况下,你不管运行多少回,这个字符串的哈希值是一定的,即输入一样,输出一定一样;
  3. 当然这里有个特殊的东西:那就是比如说String str = new String("abc"),这个你重复运行后生成的哈希值是不一样的,因为每次重复运行生成的都是一个新的对象.

这个你可以用hashCode()方法测试,你输入多个长度相同的string类型的字符串,看看输出的是不是都是十六进制的相同长度的整数就可以了.

特殊情况: 由于输入域是无穷的,但是输出域范围是有限的(它是16位的,每个位置都有16个数,一共只有16^16个数,即范围为 – 2^64 ~ 2^64-1),所以一定会出现不同的输入域但是得到了同一个输出,这就叫哈希冲突.

2. 什么是哈希表

哈希表(hash table,也叫散列表)是根据关键码值(Key value中的key)而直接进行访问的数据结构,也就是说: 哈希表基于数组,其中每个单元都是类似于key-value的存储形式关键字值通过哈希函数映射为数组的下标,如果一个关键字哈希化(将关键字转换为数组下标的过程)后映射到一个已占用的数组单元,这种情况就是上面的哈希冲突。

3. 如何解决哈希冲突

  1. 开发地址法:

开放地址法的思路就是: 通过系统的方法找到数组的一个空位,并把这个元素填进去,就不再用哈希函数获得的数组下标,它有三种方法:

  1. 线性探测
    线性探测的思路: 它会线性的查找空白单元.
    比如说5421是哈希函数计算出来的下标,但是它已经被占用了,那它就去使用5422,如果5422也被使用了,那它就去使用5423,以此类推,它的数组下标会一直递增,知道找到空白的位置.
    但是这会有一个问题: 那就是当哈希表太满的时候,我们每插入一个数据,都要频繁的探测插入位置,因为可能很多位置都被前面插入的数据占用了,这就称为聚集


  2. 二次探测(解决聚集)
    二次探测的思想: 探测相距较远的单元,而不是和原始位置相邻的单元.
    比如说: 如果哈希函数计算的原始下标是x,线性探测就是x+1,x+2,x+3这样子类推下去,而在二次探测中,探测的过程是x+1, x+4,x+9,x+16这样子,到原始位置的距离是步数的平方.这样子可以很好的解决线性探测带来的聚集问题.
    但是这会产生一个新的问题:这个问题叫做二次聚集,比如说184,552,336,753依次插入表中,他们通过哈希函数计算出来的下标都是7,按照上面的规律,552就放在8,336需要放在11,753需要放在17这样子,后面再有要放在下标为7的元素的话,它就要往后面移动更长的距离.


  3. 再哈希法(解决二次聚集)
    由于二次聚集的原因是因为每次移动的长度有规律的:1,4,9,16,25这样子,那么解决方法就是找到一种依赖于关键字的探测序列,那么就可以做到每个关键字移动的方法就都不一样了,即把关键字通过不同的哈希函数再做一遍哈希化,用这个结果作为步长,每次移动步长个距离,虽然步长对于每个关键字来说是一定的,但是不同关键字的步长是不一样的.
    为了实现想要的效果,第二个哈希函数必须有以下几个特点:
    1. 和第一个哈希函数不能相同.
    2. 不能输出0,输出0就永远在原地踏步,就死循环了.



2.链地址法:

链地址法的思路: 把哈希表每个单元中的存储方式都设置为链表,某个数据项的关键字值还是像之前一样通过哈希函数映射到哈希表,但是这个数据插入到哈希表指定下标单元的链表中,当有其他元素映射到同一个单元的时候,就往链表后面挂就可以了.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/233720.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • nginx实现tomcat动静分离详解

    nginx实现tomcat动静分离详解1.为什么要实现动静分离1)nginx的处理静态资源能力超强主要是nginx处理静态页面的效率远高于tomcat的处理能力,如果tomcat的请求量为1000次,则nginx的请求量为6000次,tomcat每秒的吞吐量为0.6M,nginx的每秒吞吐量为3.6M,可以说,nginx处理静态资源的能力是tomcat处理能力的6倍,优势可见一斑。2)动态资源和静态资源分开,使服务器结构更

    2022年6月4日
    29
  • android usb调试在哪,USB调试在哪 安卓USB调试怎么打开「建议收藏」

    android usb调试在哪,USB调试在哪 安卓USB调试怎么打开「建议收藏」关于安卓USB调试大家都知道,但是由于因为安卓系统版本的原因,USB调试的选项有一些变化,导致有的朋友不知道如何打开USB调试,现在小编就给大家提供最新的USB调试模式打开方法。1、“USB调试”是什么?在计算机和Android设备之间复制数据、移动设备上安装应用程序、读取日志数据等需要打开手机上的“USB调试”模式。“USB调试”是Android提供的一个用于开发工作的功能。只有在打开了“USB…

    2022年9月13日
    1
  • 项目各阶段定义及名词解释「建议收藏」

    项目各阶段定义及名词解释「建议收藏」一款硬件产品,例如PC、手机或其他的智能硬件产品,从项目立案到产品研发、实施生产,均要经过一个流程。这流程可以细分为很多小的项目阶段,每个小阶段又都有各自达成目的。使产品研发更加具体,项目管控更加容易

    2022年8月1日
    9
  • java.lang.assertionerror_java parseint

    java.lang.assertionerror_java parseintMicrosoftVisualStudioSolutionFile,FormatVersion12.00#VisualStudio15VisualStudioVersion=15.0.26730.16MinimumVisualStudioVersion=10.0.40219.1Project(“{FAE04EC0-301F-11D3-BF4B-00C04F79EFBC…

    2022年9月8日
    1
  • oracle的开窗函数

    oracle的开窗函数

    2021年9月2日
    161
  • 如何正确的理解RPN网络的train和test[通俗易懂]

    如何正确的理解RPN网络的train和test[通俗易懂]刚开始学FasterRCNN时,遇到这么一个困惑不知其他人有没有:RPN网络在程序中的训练是如何进行的?它都训练了网络中的哪些部分?其实这些我们如果不看源码都很难真正理解!我们以Faster-RCNN_TF的源码为例,以下代码取自./lib/networks/VGGnet_train.py#=========RPN============#以下代码的先后顺序我调整了一下,便…

    2022年6月23日
    26

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号