Hive索引

Hive索引

大家好,又见面了,我是全栈君。

1、        Hive索引概述

Hive的索引目的是提高Hive表指定列的查询速度。

没有索引时。类似’WHERE tab1.col1 = 10′ 的查询。Hive会载入整张表或分区。然后处理全部的rows,可是假设在字段col1上面存在索引时。那么仅仅会载入和处理文件的一部分。

与其它传统数据库一样。添加索引在提升查询速度时。会消耗额外资源去创建索引和须要很多其它的磁盘空间存储索引。

Hive 0.7.0版本号中,添加了索引。Hive 0.8.0版本号中添加了bitmap索引。

2、        索引相关的配置參数

hive.index.compact.file.ignore.hdfs

Default Value: false

Added In: Hive 0.7.0 withHIVE-1889

在索引文件里存储的hdfs地址将在执行时被忽略,假设开启的话;假设数据被迁移。那么索引文件依旧可用,默认是false

 

hive.optimize.index.filter

Default Value: false

Added In: Hive 0.8.0 withHIVE-1644

是否自己主动使用索引, 默认是false

 

hive.optimize.index.filter.compact.minsize

Default Value: 5368709120

Added In: Hive 0.8.0 withHIVE-1644

压缩索引自己主动应用的最小输入大小

 

 

 

hive.optimize.index.filter.compact.maxsize

Default Value: -1

Added In: Hive 0.8.0 withHIVE-1644

压缩索引自己主动应用的最大输入大小,负值代表正无穷

 

hive.index.compact.query.max.size

Default Value: 10737418240

Added In: Hive 0.8.0 withHIVE-2096

一个使用压缩索引做的查询能取到的最大数据量。默认是10737418240 个byte;负值代表无穷大;

 

hive.index.compact.query.max.entries

Default Value: 10000000

Added In: Hive 0.8.0 withHIVE-2096

使用压缩索引查询时能读到的最大索引项数,默认是10000000;负值代表无穷大;

 

hive.exec.concatenate.check.index

Default Value: true

Added In: Hive 0.8.0 withHIVE-2125

假设设置为true,那么在做ALTER TABLE tbl_name CONCATENATE on a table/partition(有索引) 操作时,抛出错误;能够帮助用户避免index的删除和重建;

 

hive.optimize.index.groupby

Default Value: false

Added In: Hive 0.8.1 withHIVE-1694

 

 

 

hive.index.compact.binary.search

Default Value: true

Added In: Hive 0.8.1with HIVE-2535

在索引表中是否开启二分搜索进行索引项查询,默认是true。

 

3、        索引演示样例

注意:在Hive 0.12.0以及之前版本号中,索引名称在create index和drop index语句中是大写和小写敏感的。然而,alter index 须要一个小写的索引名字。

此bug在Hive 0.13.0解决,此版本号開始使索引名字大写和小写不敏感。

对于Hive 0.13.0之前的版本号,最好使用小写的索引名字。

以下介绍索引的常见使用方法:

A、       Create/build,show和drop index

create index table01_index ontable table01(column2) as ‘COMPACT’ with deferred rebuild;

show index on table01;

drop index table01_index ontable01;

 

B、       Create then build。show formatted和drop index

create index table02_index ontable table02(column3) as ‘compact’ with deferred rebuild;

alter index table02_index ontable02 rebuild;

show formatted index ontable02;

drop index table02_index ontable02;

 

C、       创建bitmap索引,build,show 和drop

createindex table03_index on table table03 (column4) as ‘bitmap’ with deferred rebuild;

alter index table03_index ontable03 rebuild;

show formatted index ontable03;

drop index table03_index on table03;

D、       在一张新表上创建索引

createindex table04_index on table table04 (column5) as ‘compact’with deferred rebuild in tabletable04_index_table;

E、        创建索引,存储格式为RCFile

create index table05_index ontable table05 (column6) as ‘compact’ with deferred rebuildstored as rcfile;

F、        创建索引。存储格式为TextFile

create index table06_index ontable table06 (column7) as ‘compact’ with deferredrebuild row format delimited fields terminated by ‘\t’ stored as textfile;

G、       创建带有索引属性的索引

create index table07_index ontable table07 (column8) as ‘compact’ with deferred rebuild idxproperties(“prop1″=”value1”, “prop2″=”value2”);

H、       创建带有表属性的索引

create index table08_index ontable table08 (column9) as ‘compact’ withdeferred rebuild tblproperties(“prop3″=”value3”, “prop4″=”value4”);

I、        假设索引存在,则删除

drop index if exists table09_indexon table09;

J、        在分区上重建索引

alter index table10_index on table10partition (columnx=’valueq’, columny=’valuer’) rebuild;

4、        索引測试

(1)  查询表中行数

hive (hive)> select count(1)from userbook;

4409365

(2)  表中未创建索引前查询

hive (hive)> select * fromuserbook where book_id = ‘15999998838’;

Query ID =hadoop_20150627165551_595da79a-0e27-453b-9142-7734912934c4

Total jobs = 1

Launching Job 1 out of 1

Number of reduce tasks is setto 0 since there’s no reduce operator

Starting Job =job_1435392961740_0012, Tracking URL =http://gpmaster:8088/proxy/application_1435392961740_0012/

Kill Command =/home/hadoop/hadoop-2.6.0/bin/hadoop job -kill job_1435392961740_0012

Hadoop job information forStage-1: number of mappers: 2; number of reducers: 0

2015-06-27 16:56:04,666 Stage-1map = 0%,  reduce = 0%

2015-06-27 16:56:28,974 Stage-1map = 50%,  reduce = 0%, Cumulative CPU4.36 sec

2015-06-27 16:56:31,123 Stage-1map = 78%,  reduce = 0%, Cumulative CPU6.21 sec

2015-06-27 16:56:34,698 Stage-1map = 100%,  reduce = 0%, Cumulative CPU7.37 sec

MapReduce Total cumulative CPUtime: 7 seconds 370 msec

Ended Job =job_1435392961740_0012

MapReduce Jobs Launched:

Stage-Stage-1: Map: 2   Cumulative CPU: 7.37 sec   HDFS Read: 348355875 HDFS Write: 76 SUCCESS

Total MapReduce CPU Time Spent:7 seconds 370 msec

OK

userbook.book_id    userbook.book_name    userbook.author      userbook.public_date     userbook.address

15999998838     uviWfFJ KwCrDOA    2009-12-27  3b74416d-eb69-48e2-9d0d-09275064691b

Time taken: 45.678 seconds, Fetched: 1 row(s)

 

(3)  创建索引

hive (hive)> create indexuserbook_bookid_idx on table userbook(book_id) as ‘COMPACT’ WITH DEFERREDREBUILD;

(4)  创建索引后再运行查询

hive (hive)> select * fromuserbook where book_id = ‘15999998838’;

Query ID =hadoop_20150627170019_5bb5514a-4c8e-4c47-9347-ed0657e1f2ff

Total jobs = 1

Launching Job 1 out of 1

Number of reduce tasks is setto 0 since there’s no reduce operator

Starting Job =job_1435392961740_0013, Tracking URL = http://gpmaster:8088/proxy/application_1435392961740_0013/

Kill Command =/home/hadoop/hadoop-2.6.0/bin/hadoop job -kill job_1435392961740_0013

Hadoop job information forStage-1: number of mappers: 2; number of reducers: 0

2015-06-27 17:00:30,429 Stage-1map = 0%,  reduce = 0%

2015-06-27 17:00:54,003 Stage-1map = 50%,  reduce = 0%, Cumulative CPU7.43 sec

2015-06-27 17:00:56,181 Stage-1map = 78%,  reduce = 0%, Cumulative CPU9.66 sec

2015-06-27 17:00:58,417 Stage-1map = 100%,  reduce = 0%, Cumulative CPU10.83 sec

MapReduce Total cumulative CPUtime: 10 seconds 830 msec

Ended Job =job_1435392961740_0013

MapReduce Jobs Launched:

Stage-Stage-1: Map: 2   Cumulative CPU: 10.83 sec   HDFS Read: 348356271 HDFS Write: 76 SUCCESS

Total MapReduce CPU Time Spent:10 seconds 830 msec

OK

userbook.book_id    userbook.book_name    userbook.author      userbook.public_date     userbook.address

15999998838     uviWfFJ KwCrDOA    2009-12-27  3b74416d-eb69-48e2-9d0d-09275064691b

Time taken: 40.549 seconds, Fetched: 1 row(s)

能够看到创建索引后,速度还是稍快一点的。

事实上对于这样的简单的查询,通过我们的设置,能够不用启动Map/Reduce的,而是启动Fetch task,直接从HDFS文件里filter过滤出须要的数据。须要设置例如以下參数:

set hive.fetch.task.conversion=more;

hive (hive)> select * fromuserbook where book_id = ‘15999998838’;

OK

userbook.book_id    userbook.book_name    userbook.author      userbook.public_date     userbook.address

15999998838     uviWfFJ KwCrDOA    2009-12-27  3b74416d-eb69-48e2-9d0d-09275064691b

Time taken: 0.093 seconds,Fetched: 1 row(s)

能够看到速度更快了。毕竟省略掉了开启MR任务,运行效率提高不少。

參考:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Indexing

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/115996.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mysql explain扫描行数_mysql explain扫描行数问题

    mysql explain扫描行数_mysql explain扫描行数问题MySQL的Explain的Type中,Rang跟Ref有什么区别?type中的各个意思|ALL|全表扫描|index|索引全扫描|range|索引范围扫描。mysqlexplaintypeindex和ref的区别type=index,索引全扫描,MySQL遍历整个索引来查询匹配的行:selectusernamefromuser;type=ref,使用非唯一…

    2022年10月8日
    2
  • 1. Pycharm新建项目[通俗易懂]

    1. Pycharm新建项目[通俗易懂]1.创建Python项目File–newproject(Location选择项目的位置,最后可以加上文件的名字,如Project1),选择好位置后,点击创建,完成项目的创建。2.创建python项目右键选择项目名称(Project1)的文件夹,–new–pythonfile,给文件起名字(如first)3.文件运行写完项目后,单击右键,选择run‘first’4.设置自己的起始模板file–setting–editer–fileandcodetemplates–pyt

    2025年6月27日
    3
  • BH1750光照传感器超详细攻略(从原理到代码讲解,看完你就懂了)

    BH1750光照传感器超详细攻略(从原理到代码讲解,看完你就懂了)BH1750FVI是一款数字型光强度传感器集成芯片,内部由光敏二极管、运算放大器、ADC采集、晶振等组成。PD二极管通过光生伏特效应将输入光信号转换成电信号,经运算放大电路放大后,由ADC采集电压,然后通过逻辑电路转换成16位二进制数存储在内部的寄存器中(注:进入光窗的光越强,光电流越大,电压就越大,所以通过电压的大小就可以判断光照大小,但是要注意的是电压和光强虽然是一一对应的,但不是成正比的,所以这个芯片内部是做了线性处理的,这也是为什么不直接用光敏二极管而用集成IC的原因)。

    2022年6月2日
    141
  • 我的学习历程

    我的学习历程@[TOC]不负青春,加油干!自我介绍及共勉大家好!我是一名准大三学生,进入编程的大门已经2年的时间,从大一的css与html再到大二的java,javaweb,数据结构与算法(想哭的有没有),mysql,javascript,vue.js,javaee。我从一个啥也不会的小白转变成一个啥都想尝试的大白其中有艰难(调试bug弄了一晚上)有失落(参加蓝桥杯没拿奖)有幸福(用程序给女朋友写了个生日祝福软件)有迷茫(不知道前面的路该怎么选择)。刚进入这个圈子是因为觉得弄计算机的人特别酷,觉得黑客是这个世

    2022年10月5日
    4
  • 自动化运维平台(后端python+django)「建议收藏」

    自动化运维平台(后端python+django)「建议收藏」Django的MTV模式Django的MTV模式本质上和MVC是一样的,也是为了各组件间保持松耦合关系,只是定义上有些许不同,Django的MTV分别是值:M代表模型(Model):负责业务对象和数据库的关系映射(ORM)。T代表模板(Template):负责如何把页面展示给用户(html)。V代表视图(View):负责业务逻辑,并在适当时候调用Model和Tem…

    2022年5月16日
    44
  • Windows 7专业版安装VS2005与WinCE6.0开发环境

    近期更新了自己的小黑从XP更新到WIN7专业版,我花了两天时间验证了下列软件安装在WIN7PRO是完全兼容的。1:2011年最新更新的SourceInsight3.50.0066版本,这个是支持W

    2021年12月26日
    40

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号