Hive数据类型[通俗易懂]

Hive数据类型[通俗易懂]1.Hive数据类型Hive支持原始数据类型和复杂类型,原始类型包括数值型,Boolean,字符串,时间戳。复杂类型包括数组,map,struct。下面是Hive数据类型的一个总结:分类类型描述字面量示例原始类型BOOLEANtrue/falseTRUETINYINT1字节的有符号整数-128~1271YSMALL

大家好,又见面了,我是你们的朋友全栈君。

1. Hive数据类型

Hive支持原始数据类型和复杂类型,原始类型包括数值型,Boolean,字符串,时间戳。复杂类型包括数组,map,struct。下面是Hive数据类型的一个总结:

分类 类型 描述 字面量示例
原始类型 BOOLEAN true/false TRUE
TINYINT 1字节的有符号整数 -128~127 1Y
SMALLINT 2个字节的有符号整数,-32768~32767 1S
INT 4个字节的带符号整数 1
BIGINT 8字节带符号整数 1L
FLOAT 4字节单精度浮点数1.0
DOUBLE 8字节双精度浮点数 1.0
DEICIMAL 任意精度的带符号小数 1.0
STRING 字符串,变长 “a”,’b’
VARCHAR 变长字符串 “a”,’b’
CHAR 固定长度字符串 “a”,’b’
BINARY 字节数组 无法表示
TIMESTAMP 时间戳,纳秒精度 122327493795
DATE 日期 ‘2016-03-29’
复杂类型 ARRAY 有序的的同类型的集合 array(1,2)
MAP key-value,key必须为原始类型,value可以任意类型 map(‘a’,1,’b’,2)
STRUCT 字段集合,类型可以不同 struct(‘1’,1,1.0), named_stract(‘col1’,’1’,’col2’,1,’clo3’,1.0)
UNION 在有限取值范围内的一个值 create_union(1,’a’,63)

2. 基本类型

HQL的基本类型和Java的基本类型很接近,虽然受到一些MySQL命名的影响。

2.1 整数类型

Hive有4种带符号的整数类型:TINYINT,SMALLINT,INT,BIGINT,分别对应Java中的byte,short,int,long。字节长度分别为1,2,4,8字节。在使用整数字面量时,默认情况下为INT,如果要声明为其他类型,通过后缀来标识:

类型 后缀 例子
TINYINT Y 100Y
SMALLINT S 100S
BIGINT L 100L

2.2 小数

浮点类型包括FLOAT和DOUBLE两种,对应到Java的float和double,分别为32位和64位浮点数。DECIMAL用于表示任意精度的小树,类似于Java的BigDecimal,通常在货币当中使用。例如DECIMAL(5,2)用于存储-999.99到999.99的数字,省略掉小数位,DECIAML(5)表示-99999到99999的数字。DECIMAL则等同于DECIMAL(10,0)。小数点左边允许的最大位数为38位。

数值类型总结如下表:

Numeric-Data-types.jpg-77.3kB

2.3 文本类型

Hive有3种类型用于存储字文本。STRING存储变长的文本,对长度没有限制。理论上将STRING可以存储的大小为2GB,但是存储特别大的对象时效率可能受到影响,可以考虑使用Sqoop提供的大对象支持。VARCHAR与STRING类似,但是长度上只允许在1-65355之间。例如VARCHAR(100).CHAR则用固定长度来存储数据。

String-data-types.jpg-66.6kB

2.4 布尔及二进制

BOOLEAN表示二元的true或false。
BINARY用于存储变长的二进制数据。

2.5 时间类型

TIMESTAMP则存储纳秒级别的时间戳,同时Hive提供了一些内置函数用于在TIMESTAMP与Unix时间戳(秒)和字符串之间做转换。例如:

cast(date as date)
cast(timestamp as date)
cast(string as date)
cast(date as string)

时间戳类型的数据不包含任务的时区信息,但是to_utc_timestampfrom_utc_timestamp函数可以用于时区转换。DATE类型则表示日期,对应年月日三个部分。

3. 类型转换

Hive的类型层次中,可以根据需要进行隐式的类型转换,例如TINYINT与INT相加,则会将TINYINT转化成INT然后INT做加法。隐式转换的规则大致可以归纳如下:

  • 任意数值类型都可以转换成更宽的数据类型(不会导致精度丢失)或者文本类型。

  • 所有的文本类型都可以隐式地转换成另一种文本类型。也可以被转换成DOUBLE或者DECIMAL,转换失败时抛出异常。

  • BOOLEAN不能做任何的类型转换。

  • 时间戳和日期可以隐式地转换成文本类型。

也可以使用CAST进行显式的类型转换,例如CAST('1' as INT),如果转换失败,CAST返回NULL。

4. 复杂类型

Hive有4种复杂类型的数据结构:ARRAY,MAP,STRUCT,UNION。

4.1 ARRAY和MAP

ARRAY和MAP类型与Java中的数据和映射表。数组的类型声明格式为ARRAY<data_type>,元素访问通过0开始的下标,例如arrays[1]访问第二个元素。
MAP通过MAP<primitive_type,data_type>来声明,key只能是基本类型,值可以是任意类型。map的元素访问则使用[],例如map['key1'].

4.2 STRUCT

STRUCT则封装一组有名字的字段(named filed),其类型可以是任意的基本类型,元素的访问使用点号。

4.3 UNION

UNION则类似于C语言中的UNION结构,在给定的任何一个时间点,UNION类型可以保存指定数据类型中的任意一种。类型声明语法为UNIONTYPE<data_type,data_type,…>。每个UNION类型的值都通过一个整数来表示其类型,这个整数位声明时的索引,从0开始。例如:

CREATE TABLE union_test(foo UNIONTYPE<int,double,array<string>,strucy<a:int,b:string>>);

foo的一些取值如下:

{
  
  0:1}
{
  
  1:2.0}
{
  
  2:["three" , "four"]}
{
  
  3:["a":5,b:"five"]}
{
  
  0:9}

其中冒号左边的整数代表数据类型,必须在预先定义的范围类,通过0开始的下标表示。冒号右边是该类型的取值。

下面的这个CRATE语句用到了这4中复杂类型:

CREATE TABLE complex ( c1 ARRAY<INT>, c2 MAP<STRING,INT>, c3 STRUCT<a:STRING,b:INT,c:DOUBLE>, c4 UNIONTYPE<STRING,INT> );

通过下面的SELECT语句查询相应的数据:

SELECT c1[0] , c2['b'],c3.c , c4 FROM complex

结果类似:

1 2 1.0 { 
   1:63}
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/125328.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • SPI协议学习笔记

    SPI协议学习笔记SPI优点与缺点优点:支持全双工,通信简单,数据传输速率快缺点:在数据可靠性上存在一定的缺陷,因为它不像I2C一样有ACK应答机制SPI总线的构成及信号类型SPI总线只需四条线(如图1所示)就可以完成MCU与各种外围器件的通讯:1)MOSI–Master数据输出,Slave数据输入2)MISO–Master数据输入,Slave数

    2022年10月10日
    0
  • css3全屏背景图片切换特效

    效果体验:http://hovertree.com/texiao/css3/10/一般做图片切换效果,都会使用JS或者jQuery脚本,今天发现,其实只用CSS也可以实现。试试效果吧。效果图:代码

    2021年12月22日
    44
  • 荣耀路由2 虚拟服务器,2019年性价比之王旗舰路由器—荣耀路由PRO2评测「建议收藏」

    大家好我是搞机大表姐,今天大表姐给大家带来的是和荣耀V20一起发布的全新旗舰路由器—荣耀路由PRO2,时隔三年终于迎来了荣耀路由器PRO的升级版,相比上一代荣耀路由器PRO2带来了“六”大技术的升级,更是支持30天用不爽就退,且明哥还在发布会发下战书“600元内路由器任意挑战”的狠话让这次发布的路由PRO2带来了更足的底气,那么具体的实际表现如何呢,请看下面大表姐为大家带来的评测。按照国际惯…

    2022年4月10日
    181
  • AP模式和Router模式区别是什么

    AP模式和Router模式区别是什么AP模式和Router模式有什么区别呢?在TP-Link、水星(Mercury)、迅捷(Fast)等品牌的迷你无线路由器上,有AP模式、Router模式、中继和桥接等几个上网模式,本文重点详细介绍AP模式与Router模式的区别。AP(接入点)模式在AP模式下,需要把迷你无线路由器接入到已经可以上网的路由器或者交换机上面,然后迷你无线路由器可以提供无线WiFi,一般的迷你无线路由器出厂

    2022年10月24日
    0
  • 钉钉自定义机器人发送消息到钉钉群[通俗易懂]

    钉钉自定义机器人发送消息到钉钉群[通俗易懂]1、新建机器人2、生成密钥packagecom.epmet.commons.tools.utils;/***描述一下**@authorxxxx*@date2020/6/2417:42*/importjavax.crypto.Mac;importjavax.crypto.spec.SecretKeySpec;importorg.apache.commons.codec.binary.Base64;importjava.net.URLEncod

    2022年5月13日
    49
  • Ubuntu搭建饥荒服务器教程

    Ubuntu搭建饥荒服务器教程安装编译环境Ubuntu/Debian64-Bitsudoapt-getinstalllib32gcc1screenRedHat/CentOS32-Bityum-yinstallglibclibstdc++screenlibcurlRedHat/CentOS64-Bityum-yinstallglibc.i686libstdc++.i686screenlibcurl.i686yuminstallglibc.i686下载steamCMDwget

    2022年6月2日
    18

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号