一致性哈希算法的问题

一致性哈希算法的问题本文将从如下三个方面探探一致性哈希算法一致性哈希算法经典实用场景 一致性哈希算法通常不适合用于服务类负载均衡 面试应对之策1、一致性哈希算法经典使用场景在数据库存储领域如果单表数据量很大,通常会采用分库分表,同样在缓存领域同样需要分库,下面以一个非常常见的Redis分库架构为例进行阐述。将上述3个Redis节点称之为分片,每一个节点存储部分数据,期间需要使用负载均衡算法,将数据尽量分摊到各个节点,充分发挥分布式的优势,提升系统缓存访问的性能。在分布缓存领域,对数据存在新增与..

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

本文将从如下三个方面探探一致性哈希算法

  • 一致性哈希算法经典实用场景
  • 一致性哈希算法通常不适合用于服务类负载均衡
  • 面试应对之策

 1、一致性哈希算法经典使用场景

在数据库存储领域如果单表数据量很大,通常会采用分库分表,同样在缓存领域同样需要分库,下面以一个非常常见的Redis分库架构为例进行阐述。

面试时遇到一致性哈希算法这样回答会让面试官眼前一亮

 

将上述3个Redis节点称之为分片,每一个节点存储部分数据,期间需要使用负载均衡算法,将数据尽量分摊到各个节点,充分发挥分布式的优势,提升系统缓存访问的性能。

在分布缓存领域,对数据存在新增与查询,即数据通过路由算法存储在某一个节点后,查询时需要尽量路由到同一个节点,否则会出现查询未命中缓存的情况,这也是与分布式服务调用领域的负载算法一个不同点。

分布式缓存存储类领域的负载均衡算法通常会使用某一个字段当”分片键”,在进行负载之前先求出分片字段对应的HashCode,然后与当前的节点数取模。即 hashcode(分片键) % 节点总数(分片总数)。

 1.1 在分布式缓存领域上述算法的弊端

先哈希再取模实现起来简单高效,但在分布式缓存领域存在一个致命的痛点,对扩容、缩容不友好,会降低缓存的命中率。

因扩容引起的数据命中率问题示意图如下:

面试时遇到一致性哈希算法这样回答会让面试官眼前一亮

 

例如当前集群中由3个节点存储,例如现在向集群中写入6个数据,其分片键的hashcode为1-6,数据的分布情况如上述所示,但由于随着业务的急剧增长,3台redis已经无法满足业务的需求,项目组决定对其进行扩容,从原先的3台扩容到4台,这个时候项目组尝试去缓存中查找 k1,k2,k3,k4,k5,k6时会出现什么问题?

根据 hashcode 再取模的方式,由于数量从3台到4台,经路由算法路由后,k4 会尝试从3.169的机器去查找,但对应的数据却存储在3.166上,以上面6个key的命中来看,只有50%的命中率,扩容后带来缓存穿透,大量数据进入到后台数据库。

在数据存储领域的第一种解决方案:成倍扩容。将原来的3个节点数量扩充倍,新增加的第一台数据来源于第一台,以此类推,第6台的数据来源于第3台,这样k6经过新的负载均衡算法会落到第6台,数据原本存在于第3台,而第6台的数据来源于第3台,这样避免了缓存穿透。

成倍扩容能有效解决扩容后带来的缓存穿透问题,但这样做会造成资源的浪费,有没有其他更好的方法呢?

一致性哈希算法闪亮登场。

 1.2 一致性哈希算法

一致性哈希算法

一致性哈希算法的设计理念如下图所示:

面试时遇到一致性哈希算法这样回答会让面试官眼前一亮

 

首先将哈希值映射到 0 ~ 2的32次方的一个圆中,然后将实际的物理节点的IP地址或取其hash值,放入到hash环中。

然后对需要插入的数据先求哈希,再顺时针沿着哈希环,找到第一个实际节点,数据将存储到该实际节点上。

扩容后的示例图:

面试时遇到一致性哈希算法这样回答会让面试官眼前一亮

 

从中可以看到受影响的范围能控制在两个节点的hashcode之间的部分数据,比起先哈希再取模,其未命中率将会得到极大的影响。

但一致性哈希算法要得到较好的效果,取决于各个实体节点在哈希环的分布情况,是否能分散,例如如下分布则会大打折扣:

面试时遇到一致性哈希算法这样回答会让面试官眼前一亮

 

这种情况会造成数据分布不均衡,为了解决数据很可能分布不均匀的情况,对一致性哈希算法,提出了改进,引入了虚拟节点的,可以设置一个哈希环中存在多少个虚拟节点,然后将虚拟节点映射到实体节点,从而解决数据分布吧均衡的问题。

面试时遇到一致性哈希算法这样回答会让面试官眼前一亮

 

这样通过为不同的的实际节点映射不同的虚拟节点,实现数据的均匀分布,并且扩容或缩容时并不会出现大面积的缓存穿透。

温馨提示:上述的映射只是一个理想状态,其核心思路是为每一个实体节点创建多个虚拟节点,并且核心虚拟节点的Hash值越分散越好。

大家可以思考一下,如何用JAVA来实现一致性哈希算法?

一致性哈希算法的两个关键:

  • 顺时针选择节点
    可以使用TreeMap,一来具备排序功能,天然提供了相应的方法获取顺时针的一个元素。TreeMap 的 ceilingEntry()方法用于返回与大于或等于给定键元素(ele)的最小键元素链接的键值对。
  • 虚拟节点如何生成分散的哈希值
    生成分散的哈希值,通常可以基于md5加密算法来实现。

面试时遇到一致性哈希算法这样回答会让面试官眼前一亮

 

 2、一致性哈希算法被“滥用”

一致性哈希算法在面对分布式缓存有着得天独厚的优势,因为它的产生就是为了解决分布式缓存扩容、缩容带来的缓存穿透问题。但现在一致性在分布式服务调用的负载算法竟然也引入了一致性哈希算法。

在Dubbo中为了实现客户端在服务调用时对服务提供者进行负载均衡,官方也提供了一致性哈希算法;在RocketMQ集群消费模式时消费队列的负载均衡机制竟然也实现了一致性哈希算法,但我觉得一致性哈希算法在这些领域完全无法发挥其他优势,比轮循、加权轮循、随机、加权随机算法等负载均衡算法相比,实现复杂,性能低下,运维管理复杂

因为在服务调用等负载均衡算法,多次服务调用之间关联性不太强,在服务端扩容、缩容后,对于客户端来说其实并不关心路由到哪台服务器,其关心的是能否返回一台服务器即可。

 3、面试应对之策

在面试过程中,遇到一致性哈希算的时候,尽量能从其使用场景:分布式缓存负载均衡,特别是突出扩容、缩容能有效避免缓存穿透的问题。同时需要阐述一致性哈希算法的缺陷以及其应对策略(虚拟节点)。

聊的差不多可以顺便提一下阅读过一致性哈希算法的源码:强调TreeMap与虚拟节点哈希值的生成方法。

最后可以尝试引导面试官聊聊现在一致性哈希算法有点被滥用的嫌疑,在轻松愉快的讨论中与面试交流技术,面试官好评度蹭蹭往上涨。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/164585.html原文链接:https://javaforall.net

(0)
上一篇 2022年7月27日 上午7:46
下一篇 2022年7月27日 上午7:46


相关推荐

  • 数据解读 | 川菜出圈只靠辣?你太小瞧川菜了[通俗易懂]

    数据解读 | 川菜出圈只靠辣?你太小瞧川菜了[通俗易懂]图片来自网络,侵删作者|钟黛编辑|陆泓设计|张梓豪来源|DT财经(ID:DTcaijing)聚餐不知道吃什么,结局通常是二选一…

    2022年5月24日
    35
  • 常见函数的泰勒公式展开_基本泰勒公式展开表

    常见函数的泰勒公式展开_基本泰勒公式展开表笔记

    2025年7月2日
    8
  • php面试题目2020_php算法面试题及答案

    php面试题目2020_php算法面试题及答案2019最新整理PHP面试题附答案1、什么事面向对象?主要特征是什么?面向对象是程序的一种设计方式,它利于提高程序的重用性,使程序结构更加清晰。主要特征:封装、继承、多态。2、SESSION与COOKIE的区别是什么,请从协议,产生的原因与作用说明?A、http无状态协议,不能区分用户是否是从同一个网站上来的,同一个用户请求不同的页面不能看做是同一个用户。B、SESSION存储在服…

    2022年8月26日
    10
  • linux服务器,卸载tensorflow CPU 安装PGU版

    linux服务器,卸载tensorflow CPU 安装PGU版linux服务器,卸载tensorflowCPU安装PGU版写在前面之前用的和学习的都是pytorch框架,现在要运行一个keras的代码,得安装tensorflow和keras,按一个教程,直接在pycharm里setting,点那个+很快就装好了tensorflow和keras,运行了几次发现运行特别慢,用nvidia-smi查看,发现根本没有用pgu跑,一番查找,最后发现安装的tensorflow本身是按CPU跑的,要用GPU跑,得安装tensorflow-gpu。以下主要参考了https

    2022年6月22日
    50
  • python最新激活码2021 4月底【在线注册码/序列号/破解码】

    python最新激活码2021 4月底【在线注册码/序列号/破解码】,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月18日
    52
  • カード名義_acm题

    カード名義_acm题原题链接给定一棵包含 n 个节点的有根无向树,节点编号互不相同,但不一定是 1∼n。有 m 个询问,每个询问给出了一对节点的编号 x 和 y,询问 x 与 y 的祖孙关系。输入格式输入第一行包括一个整数 表示节点个数;接下来 n 行每行一对整数 a 和 b,表示 a 和 b 之间有一条无向边。如果 b 是 −1,那么 a 就是树的根;第 n+2 行是一个整数 m 表示询问个数;接下来 m 行,每行两个不同的正整数 x 和 y,表示一个询问。输出格式对于每一个询问,若 x 是 y 的祖先则输

    2022年8月8日
    8

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号