hbase rowkey设计原则和为什么nosql查询速度快「建议收藏」

全栈程序员-站长 • 2022年4月23日下午10:40 • 未分类 • 阅读 55

hbase rowkey设计原则和为什么nosql查询速度快「建议收藏」hbase rowkey设计原则和为什么nosql查询速度快

大家好，又见面了，我是你们的朋友全栈君。

HBase RowKey

概述

HBase是一个分布式的、面向列的数据库，它和一般关系型数据库的最大区别是：HBase很适合于存储非结构化的数据，还有就是它基于列的而不是基于行的模式。

既然HBase是采用KeyValue的列存储，那Rowkey就是KeyValue的Key了，表示唯一一行。Rowkey也是一段二进制码流，最大长度为64KB，内容可以由使用的用户自定义。数据加载时，一般也是根据Rowkey的二进制序由小到大进行的。

HBase是根据Rowkey来进行检索的，系统通过找到某个Rowkey (或者某个 Rowkey 范围)所在的Region，然后将查询数据的请求路由到该Region获取数据。HBase的检索支持3种方式：

通过单个Rowkey访问，即按照某个Rowkey键值进行get操作，这样获取唯一一条记录；
通过Rowkey的range进行scan，即通过设置startRowKey和endRowKey，在这个范围内进行扫描。这样可以按指定的条件获取一批记录；
全表扫描，即直接扫描整张表中所有行记录。

HBASE按单个Rowkey检索的效率是很高的，耗时在1毫秒以下，每秒钟可获取1000~2000条记录，不过非key列的查询很慢。

HBase的RowKey设计

设计原则

Rowkey长度原则

Rowkey是一个二进制码流，Rowkey的长度被很多开发者建议说设计在10~100个字节，不过建议是越短越好，不要超过16个字节。

原因如下：

数据的持久化文件HFile中是按照KeyValue存储的，如果Rowkey过长比如100个字节，1000万列数据光Rowkey就要占用100*1000万=10亿个字节，将近1G数据，这会极大影响HFile的存储效率；
MemStore将缓存部分数据到内存，如果Rowkey字段过长内存的有效利用率会降低，系统将无法缓存更多的数据，这会降低检索效率。因此Rowkey的字节长度越短越好。
目前操作系统是都是64位系统，内存8字节对齐。控制在16个字节，8字节的整数倍利用操作系统的最佳特性。

Rowkey散列原则

如果Rowkey是按时间戳的方式递增，不要将时间放在二进制码的前面，建议将Rowkey的高位作为散列字段，由程序循环生成，低位放时间字段，这样将提高数据均衡分布在每个Regionserver实现负载均衡的几率。如果没有散列字段，首字段直接是时间信息将产生所有新数据都在一个RegionServer上堆积的热点现象，这样在做数据检索的时候负载将会集中在个别RegionServer，降低查询效率。（原因：在一天中的某个时间点只会访问某个或某几个RegionServer）

Rowkey唯一原则

必须在设计上保证其唯一性。

场景应用

比如根据userID以及时间、业务ID、业务类型作为一个RowKey。

设计RowKey的时候，将userID放在前面，依次为时间、业务ID、业务类型。

为什么将userID放前面，是因为散列均匀，不会形成数据热点。时间的话，可以用long.maxValue-time，为什么这样，因为这样可以按时间倒序访问，符合我们的习惯。其他的两个字段是唯一性的需要以精准定位（可以有可以没有，只要能唯一定位既可以）。

参考资料：
网上资源
备注：
转载请注明出处：http://blog.csdn.net/wsyw126/article/details/73002497
作者：WSYW126

下面说说为什么hbase等Nosql的查询速度那么快呢？

1，hbase的按列存储的，rowkey是有序排列的，按区划分rowkey的

2，有一部分数据是放在memstore内存中的，读取会快点

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/106059.html原文链接：https://javaforall.net

设计

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

JVM原理最全、清晰、通俗讲解，五天40小时吐血整理

上一篇 2022年4月23日下午10:40

Java中的四种引用方式的区别强引用、软引用、弱引用、虚引用的概念[通俗易懂]

下一篇 2022年4月23日下午11:00

SpringBoot2 | SpringBoot启动流程源码分析（一）[通俗易懂]

SpringBoot2 | SpringBoot启动流程源码分析（一）[通俗易懂]概述：前阵子看到了SpringCloud社区的一个开源项目，主要是对服务发现增强的功能。研究项目的时候发现代码简练，优雅，最主要是springioc和aop特性应用的得心应手。若非对源码有深入研究，不可能写出这么优秀的开源项目。另外在现有的springboot专栏中，大多数博文旨在应用，对一些中间件的整合之类，源码分析的博客数量有限。鉴于以上两方面，该系列应运而生。该系列主要还是Spri…

全栈程序员-站长
2022年6月12日
57
GiD 自定义简介

GiD 自定义简介目录BlogLinks一、前言二、GiD的程序架构六、参考文献BlogLinksDalNur|博客总目录GiD实用教程GiD前处理实例GiD自定义简介GiD后处理实例一、前言随着计算机技术的发展，有限元法已成为非常强大的数值模拟工具，广泛应用于各个领域。目前，比较常用的大型商用有限元程序有ANSYS，ABAQUS，MARC，ADINA等，由于它们是通用有限元程序，在某些领域的特殊方面（如对于应力场、渗流场、温度场的耦合问

全栈程序员-站长
2025年8月10日
5
支持向量机的原理

一、什么是支持向量机支持向量机(supportvectormachine，简称SVM)是一种基于统计学习理论的新型学习机，是由前苏联教授Vapnik最早提出的。与传统的学习方法不同，支持向量机是结构风险最小化方法的近似实现。这个归纳原理是基于这样的事实，学习机器在测试数据上的误差率(即泛化误差率)以训练误差率和一个依赖于Vc维数(Vapnik-Chervonenkisdimensio…

全栈程序员-站长
2022年4月5日
82
Java中static关键字的作用与用法「建议收藏」

Java中static关键字的作用与用法「建议收藏」一、static关键字的特点：static是一个修饰符，用于修饰类的成员方法、类的成员变量，另外可以编写static代码块来优化程序性能。1.static修饰成员方法static修饰的方法一般称作静态方法，由于静态方法不依赖于任何对象就可以进行访问，因此对于静态方法来说，是没有this的，因为它不依附于任何对象，既然都没有对象，就谈不上this了。并且由于这个特性，在静态方法中不能访问类的非静态成员变量和非静态成员方法，因为非静态成员方法/变量都必须依赖具体的对象才能够被调用。…

全栈程序员-站长
2022年7月9日
21
随机森林算法（有监督学习）

随机森林算法（有监督学习）一、随机森林算法的基本思想随机森林的出现主要是为了解单一决策树可能出现的很大误差和overfitting的问题。这个算法的核心思想就是将多个不同的决策树进行组合，利用这种组合降低单一决策树有可能带来的片面性和判断不准确性。用我们常说的话来形容这个思想就是“三个臭皮匠赛过诸葛亮”。具体来讲，随机森林是用随…

全栈程序员-站长
2022年5月23日
40
MMC卡的详细介绍

MMC卡的详细介绍1．了解MMC卡MMC卡是有由美国SANDISK公司和德国西门子公司在1997年共同开发研制的一种多功能存储卡。MMC卡采用7针的接口，主要应用于数码相机、手机和一些PDA产品上，价格相对较贵。MMC卡在一定程度上改善了CF卡读写速度较慢的缺点，并且体积轻巧，尺寸为32mm×24mm×1.4mm，重量不足2克。其抗冲击性强，可反复读写30万次。MMC卡4.0标准提供了更宽的数据

全栈程序员-站长
2022年6月6日
181

hbase rowkey设计原则 和为什么nosql查询速度快「建议收藏」

HBase RowKey

概述

HBase的RowKey设计

设计原则

场景应用

关于作者

全栈程序员-站长

相关推荐

SpringBoot2 | SpringBoot启动流程源码分析（一）[通俗易懂]

GiD 自定义 简介

支持向量机的原理

Java中static关键字的作用与用法「建议收藏」

随机森林算法（有监督学习）

MMC卡的详细介绍

发表回复

hbase rowkey设计原则和为什么nosql查询速度快「建议收藏」

GiD 自定义简介